互联 网 的 飞速 发 展 伴随 着 海量 信息 的 产生 ， 而 海量 信息 的 背后 对 应 的 则 是 海量 数据 。 如 何 从 这 些 海量 数据 中 获取 有 价值 的 信息 来 供 人 们 学 习 和 工作 使 用 ， 这 就 不 得 不 用 到 大 数据 挖 所 和 分 析 技 术 。 数 据 
分 析 作 为 大 数据 技术 的 核心 一 环 ， 其 重要 性 不 言 而 喻 。 


在 数据 分 析 领 域 ，Python 语 言 以 其 简单 易 用 ， 并 提供 了 优秀 、 好 用 的 第 三 方 库 和 数据 分 析 的 完整 框架 而 深 受 数据 分 析 人 员 的 青睐 。 可 以 说 ，Python 已 经 当仁不让 地 成 为 了 数据 分 析 人 员 的 一 把 “ 利 
器 ”。 程 序 员 想 要 进入 数据 分 析 行 业 ， 首 先 要 掌握 Python 数据 分 析 技术 ， 只 有 这 样 才能 在 严峻 的 就 业 市 场 中 具有 较 强 的 竞争 力 。 


目前 图 书市 场 上 关于 Python 数据 分 析 的 图 书 主 要 是 几 本 翻译 图 书 ， 其 定位 相对 高 端 ， 而 且 翻 译 质量 参差 不 齐 ， 案 例 数据 不 方便 下 载 ， 阅 读 难度 系数 较 大 ， 初 学 者 不 容易 上 手 ， 故 不 适合 初学 者 学 习 ; 而 
国内 的 几 本 原创 Python 数据 分 析 图 书 质量 也 良 鞠 不 齐 ， 不 成 系统 ， 也 不 适合 初学 者 阅读 。 可 以 说 ， 图 书市 场 上 还 鲜 见 一 本 通俗 易 懂 目 适合 “小 白 ” 阅 读 的 Python 数据 分 析 入 门 图 书 ， 基 于 此 ， 笔 者 编写 了 
本 书 。 本 书 从 Python 数据 分 析 的 基础 知识 入 手 讲解 ， 然 后 结合 大 量 的 数据 分 析 案 例 ， 系 统 地 介绍 了 Python 数据 分 析 的 方法 和 流程 ， 手 把 手 带 领 读 者 掌握 Python 数据 分 析 的 相关 知识 ， 并 提高 读者 的 项 目 实 


为 了 便于 读者 高 效 、 直 观 地 学 习 ， 笔 者 专门 为 本 书 的 重点 内 容 录 制 了 配套 教学 视频 ， 读 者 可 以 一 边 看 书 ， 一 边 结合 教 学 视频 进行 学 习 ， 以 取得 更 好 的 学 习 效 果 。 
2. 内 容 全 面 ， 讲 解 系统 
本 书 不 但 全 面 介绍 了 从 Numpy 到 pandas， 从 matplotlib 到 pyecharts 的 数据 分 析 必 学 技术 ， 而 且 还 系统 地 讲解 了 从 数据 读 取 到 | 数据 清洗 ， 从 数据 处 理 到 数据 可 视 化 的 详细 步骤 。 
3. 给 出 了 数据 分 析 环 境 的 安装 和 配置 步骤 
本 书 详细 介绍 了 Python 数据 分 析 集成 环境 Anaconda 的 安装 步骤 和 使 用 方法 ， 可 以 大 大 降低 初学 者 学 习 Python 数 据 分 析 的 门槛 ， 从 而 让 读者 快速 跨 进 Python 数 据 分 析 的 大 门 。 
4. 详细 介绍 了 数据 分 析 的 流程 
本 书 从 一 开始 便 对 数据 分 析 的 流程 进行 了 详细 介绍 ， 而 且 在 讲解 中 结合 了 多 个 实用 性 很 强 的 数据 分 析 项 目 案例 ， 带 领 读 者 掌握 Python 数据 分 析 的 相关 知识 ， 以 解决 实际 工作 中 的 数据 分 析 问 题 。 
5. 提供 了 9 个 有 较 高 应 用 价值 的 项 目 案例 ， 有 很 强 的 实用 性 
本 书 提供 了 9 个 实用 性 很 强 的 数据 分 析 项 目 案例 ， 这 些 案例 从 不 同 的 分 析 角 度 切 入 进行 讲解 ， 具 有 较 高 的 应 用 价值 。 读 者 通过 实际 操练 ， 可 以 更 加 透彻 地 理解 数据 分 析 的 相关 知识 。 
6. 提供 教学 PPT， 方 便 教学 和 学 习 


笔者 专门 为 本 书 制作 了 专业 的 教学 PPT， 以 方便 相关 院 校 的 教学 人 员 授 课时 使 用 ; 读者 也 可 以 通过 教学 PPT， 提 纲 者 领 地 掌握 书 中 的 内 容 脉络 。 


本 书 内 容 


第 1 章 ” Python 环境 搭建 与 使 用 
本 章 介 绍 了 如 何 搭建 和 使 用 Python 数 据 分 析 环 境 ， 并 介绍 了 如 何 使 用 Jupyter Notebook 进 行 数据 分 析 编 程 。 
第 2 章 NumPy 入 门 和 实战 


本 章 首先 介绍 了 Numpy 的 基本 数据 结构 一 一 多 维 数组 ; 然后 介绍 了 多 维 数组 的 创建 和 基本 属性 、 数 组 的 切片 和 索引 方法 ， 以 及 数组 的 运算 与 存 取 ; 最 后 通过 综合 案例 ， 演 示 了 如 何 实现 图 像 的 变换 功 
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$3% ”pandas 入 门 和 实战 


本 章 首先 介绍 了 pandas 中 两 种 基础 数据 结构 的 创建 和 使 用 方法 ; 然后 详细 讲解 了 DataFrame 的 选取 和 操作 ， 同 时 介绍 了 其 算术 运算 、 函 数 的 使 用 和 pandas 的 可 视 化 方法 ; 最 后 结合 案例 ， 介 绍 了 数据 


分 析 流 程 。 
第 4 章 “外 部 数据 的 读 取 与 存储 
本 章 主要 介绍 了 如 何 利用 pandas 库 读 取 外 部 数据 为 DataFrame 数 据 格 式 ， 并 介绍 了 通过 Python 进行 数据 处 理 后 如 何 将 DataFrame 类 数据 存储 到 相应 的 外 部 数据 文件 中 。 
第 5 章 “数据 清洗 与 整理 
本 章 主要 介绍 了 如 何 使 用 pandas 进 行 多 源 数 据 的 清洗 和 整理 ， 并 给 出 了 针对 多 源 数据 的 合并 和 连接 方法 ， 以 及 数据 的 重 塑 方法 ， 最 后 通过 一 个 综合 案例 演示 了 数据 分 析 中 的 数据 清洗 过 程 。 
第 6 章 ”数据 分 组 与 聚合 
本 章 涵盖 的 主要 内 容 有 : GroupBy 的 原理 和 使 用 方法 ; 聚合 函数 的 使 用 ; 分 组 运算 中 transform 和 apply 方 法 的 使 用 ; 通过 pandas 创 建 数据 透视 表 ; 通过 综合 案例 ， 巩 固 数据 分 组 统计 的 使 用 。 
第 7 章  matplotlibe] 1044 
本 章 涵盖 的 主要 内 容 有 : 利用 matplotlib 进 行 图 表 绘制 ， 学 会 使 用 自 定义 设置 ， 个 性 化 绘制 图 表 ; 通过 综合 案例 ， 巩 固 matplotlib 可 视 化 的 方法 和 技巧 。 
第 8 章 ”seaborn 可 视 化 
本 章 涵盖 的 主要 内 容 有 : 使 用 seaborn 绘 图 ; 学 会 saborn 样 式 和 分 布 图 绘制 ， 通 过 综合 案例 泰坦 尼克 号 的 生还 者 数据 ， 巩 固 seaborn 的 可 视 化 方法 和 技巧 。 


第 9 章 “pyecharts 可 视 化 


本 章 涵盖 的 主要 内 容 有 : 安装 pyecharts 库 ; 学 会 使 用 pyecharts 库 绘制 基本 图 表 ; 学 会 绘制 其 他 图 表 ; 通过 综合 案例 ， 巩 固 pyecharts 的 绘制 方法 和 技巧 。 

第 10 章 ”时间 序列 

本 章 涵盖 的 主要 内 容 有 : 时 间 序 列 的 构造 和 使 用 方法 ; 时 间 序 列 的 频率 转换 与 重 采 样 ;通过 综合 案例 ， 巩 固 时 间 序 列 数 据 的 处 理 与 分 析 方 法 。 

第 11 章 ”综合 案例 一 一 网 站 日 志 分 析 

本 章 通 过 一 个 综合 案例 ， 介 绍 了 如 何 通 过 Python 的 第 三 方 库 解析 网 站 日 志 ; 如 何 利用 pandas 对 网 站 日 志 数 据 进 行 预 处 理 ; 结合 前 面 介绍 的 数据 分 析 和 数据 可 视 化 技术 对 网 站 日 志 数 据 进行 分 析 。 
本 书 配 套 资源 获取 方式 

本 书 提供 以 下 配套 资源 : 

" 本 书 配套 教学 视频 ; 

. 超 值 电子 书 (地 图 绘制 技术 ) ; 

* 本 书 相 关 素 材 文件 ; 

“ 本 书 源 代码 文件 ; 

本 书 教学 PPT。 


这 些 配套 资源 需要 读者 自行 下 载 。 请 登录 机 械 工业 出 版 社 华章 公司 网 站 www.hzbook.com， 在 该 网 站 上 搜索 到 本 书 ， 然 后 单 击 “ 资 料 下 载 ” 按 钮 即 可 找到 “ 配 书 资源 ”下 载 链接 。 
适合 阅读 本 书 的 读者 
" 数据 分 析 初 学 者 ，; 


" 数据 分 析 爱 好 者 ，; 


数据 分 析 从 业 人 员 ; 





` 数据 分 析 培 训 学 X ; 
` 高 校 相关 专业 的 学 生 。 
本 书 由 罗 欧 主笔 编写 ， 蒋 什 、 陈 瑞 滕 和 潘 丹 三 位 小 伙伴 也 参与 了 部 分 章节 的 编写 工作 ， 在 此 对 他 们 表示 特别 的 感谢 ! 


由 于 作者 水 平 所 限 ， 加 之 写作 时 间 有 限 ， 书 中 可 能 还 存在 一 些 疏 漏 和 不 足 之 处 ， 冤 请 各 位 读者 伏 正 。 联 系 我 们 请 发 电子 邮件 到 hzbook2017@163.com。 
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第 1 章 ” Python 环境 搭建 与 使 用 


Python 语言 在 数据 读 取 、 数 据 处 理 、 数 据 可 视 化 和 数据 挖掘 等 方面 都 有 极其 广泛 的 应 用 。 本 章 将 讲解 如 何 搭建 和 使 用 Python 数据 科学 环境 ， 并 学 习 使 用 Jupyter Notebook 进 行 编程 。 
下 面 给 出 本 章 涉及 的 知识 点 与 学 习 目 标 。 
: Anaconda 安 装 和 使 用 : 学 会 数据 科学 环境 的 搭建 和 使 用 。 


Jupyter Notebook 使 用 : 学 会 Jupyter Notebook 的 基本 操作 和 Python 程 序 的 编写 。 


1.1 Anaconda 的 安装 和 使 用 


“ 工 欲 善 其 事 ， 必 先 利 其 器 ”。 本 节 将 介绍 Python 数据 科学 环境 (Anaconda) 的 安装 和 使 用 方法 。 


1.1.1 Anaconda 的 安装 


Anaconda 是 一 个 集成 的 Python 数据 科学 环境 。 简 单 地 说 ，Anaconda 除 了 有 Python 外 ， 还 安装 了 180 多 个 用 于 数据 分 析 的 第 三 方 库 ， 而 且 可 以 使 用 conda 命 令 安装 第 三 方 库 和 创建 多 个 环境 。 相 对 于 
只 安装 Python 而 言 ， 安 装 Anaconda 避 免 了 安装 第 三 方 库 的 麻烦 。 

GIE: 因为 许多 与 数据 分 析 相 关 的 Python 第 三 方 库 依 赖 性 强 ， 不 容易 安装 ， 建 议 使 用 Anaconda。 

(1) 打开 浏览 器 ， 进 入 清华 大 学 Anaconda 开 源 镜 像 源 (https;//mirror.tuna.tsinghua.edu.cn/help/anaconda/) ， 单 击 链接 进行 下 载 ， 如 图 1.1 所 示 。 

OES: 由 于 网 络 限制 ， 这 里 没有 介绍 如 何在 官网 下 载 ， 而 是 选择 通过 镜像 下 载 。 


(2) 通过 下 拉 列 表 选 择 最 新 的 Anaconda 版 本 ， 读 者 可 根据 计算 机 操作 系统 进行 下 载 ， 如 图 1.2 所 示 。 


Dg : Anaconda 3 为 Python 3 的 版 本 。 本 书 以 Windows 64 位 操作 系统 为 例 。 


A 


AOSP 


AUR 


CRAN 


CTAN 


CocoaPods 


archlinux 


archlinuxcn 


bananian 


bioconductor 


chromiumos 


Anaconda3-5. 
Ànaconda3-5. 0. 
Ànaconda3-5. 
Ànaconda3-5. 
Anaconda3-5. 
Ànaconda3-5. 0. 


AÀnaconda3-5. 


(3) 双击 打开 下 载 好 的 程序 ， 在 欢迎 界面 单 击 Next 按 钮 进入 下 一 步 ， 然 后 单 击 | Agree 按 钮 同意 进行 


Anaconda 镜像 使 用 帮助 


HOME EVENTS BLOG RSS PODCAST MIRRORS 


Anaconda 星 一 个 用 于 科学 计算 的 Python 发 行 版 ， 支 持 Linux, Mac, Windows, 包含 了 众多 流行 的 科学 计算 、 数 据 分 析 的 Python &. 


Anaconda 安装 包 可 以 到 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 


TUNA 还 提供 了 Anaconda 仓库 的 镜像 ， 运 行 以 下 命令 : 


conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs /main/ 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ 


conda config --set show channel urls yes 


即 可 添加 Anaconda Python ASGO. 


运行 conda install numpy 测试 一 下 吧 。 


Miniconda 镜像 使 用 帮助 


Miniconda 旺 一 个 Anaconda HRERS, KURSAT python 和 conda ,但 星 可 以 通过 pip 和 conda 来 安装 所 需要 的 包 . 


Miniconda 安装 包 可 以 到 https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 下 载 。 


Conda 三 方 源 


当前 tuna 还 维护 了 一 些 anaconda 二 方 源 。 


J. 0. 1-Linux-x$86. sh 


0. 1-Linux-x86 64. sh 


.1 -Linux-x86. sh 
J. 1-Linux-x86 64. sh 


. 1l-MacOSX-x86 64. pkg 


1-MacOSX-x86 64. sh 


. 1-4i1ndows-x86. exe 


钮 进入 下 一 步 ， 如 图 1.3 所 示 。 
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X2 
装 ， 此 时 会 要 求 读者 选择 使 用 的 用 户 类 型 ， 读 者 可 选择 所 有 用 户 (All Users) ， 然 后 单 击 Next 按 


(4) 选择 安装 路 径 ， 建 议 安装 到 非 系 统 盘 ， 并 安装 到 磁盘 的 根 目录 下 ， 然 后 单 击 Next 按 钮 进入 下 一 步 ， 如 图 1.4 所 示 。 








J Anaconda3 5.0.1 (64-bit) Setup Le 9e | 





£) ANACONDA Please select the type of installation you would like to perform for 
Anaconda3 5.0. 1 (64-bit). 


Install for: 


© Just Me (recommended) 


图 1.3 ”安装 步骤 3 


J Anaconda3 5.0.1 (64-bit) Setup | ca | W*- | 


£) ANACONDA Choose the folder in which to install Anaconda3 5.0. 1 (64-bit). 


Setup will install Anaconda3 5.0. 1 (64-bit) in the following folder. To install in a different 
folder, dick Browse and select another folder. Click Next to continue. 


Destination Folder 


Space required: 2.4GB 
Space available: 223. 5GB 


Anaconda, Inc, 





(5) 在 自 定义 选项 中 ， 义 选 所 有 选项 ， 单 击 Install 按 钮 进行 安装 即 可 。 安 装 完成 后 ， 单 击 Next 按 钮 ， 再 单 击 Finish 按 钮 即 可 完成 安装 ， 如 图 1.5 所 示 。 
Cs: 第 一 个 复 选 框 选 项 是 把 Anaconda 加 入 环境 变量 ， 勾 选 第 二 个 复 选 框 可 以 关联 一 些 编辑 器 。 


(6) 安装 完成 后 ， 在 “开始 ”菜单 栏 中 ， 选 择 Anaconda Prompt 命 令 即 可 运行 Anaconda 环 境 ， 如 图 1.6 所 示 。 


J Anaconda3 5.0.1 (64-bit) Setup — 1 


£) ANACONDA Customize how Anaconda integrates with Windows 


Advanced Options 


[V] Add Anaconda to the system PATH environment variable 


Not recommended. Instead, open Anaconda with the Windows Start 
menu and select "Anaconda (64-bit)'. This "add to PATH" option makes 
Anaconda get found before previously installed software, but may 
cause problems requiring you to uninstall and reinstall Anaconda. 


Register Anaconda as the system Python 3.6 
This will allow other programs, such as Python Tools for Visual Studio 


PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.6 on the system. 


Anaconda d, Inc. 


Anaconda3 (64-bit) 
s Anaconda Navigator 





— Jupyter Notebook 


. | Reset Spyder Settings 
© Spyder 

Bandicam 

Blueberry Software 
FastStone Capture 
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iTunes 


-— 


JetBrains 

MarkdownPad 2 

Microsoft Office 2013 
Microsoft Power BI Desktop 
MySQL 

Notepad++ 

ppT 美 化 大 师 


PremiumSoft E 








图 1.6 运行 Anaconda 


1.1.2 Anaconda 的 使 用 
Anaconda 其 实 是 一 个 打包 的 集合 ， 里 面 预 装 好 了 conda、 某 个 版 本 的 Python、 众 多 包 及 科学 计算 工具 等 。 对 于 Anaconda 的 使 用 ， 其 实 就 是 对 conda 的 使 用 。conda 可 以 理解 为 一 个 工具 (或 者 是 可 


执行 的 命令 ) ， 其 核心 功能 为 第 三 方 库 ( 包 ) 和 环境 的 管理 。 


首先 运行 Anaconda， 查 看 Python 版 本 ， 如 图 1.7 所 示 。 由 于 这 里 安装 的 是 Anaconda 3， 对 应 的 是 Python 3 版 本 。 


通过 conda list 命 令 可 以 查看 安装 的 包 ， 部 分 结果 如 图 1.8 所 示 ， 可 以 看 出 ，Anaconda 集 成 了 大 量 的 包 。 


E EER: Anaconda Prompt cle 站 


; Nisers NLP?python --version 


finaconda, Inc. 


CF:*Anaconda?) G: Wsers\LEP> 





图 1.7 ”查看 Python 版 本 
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B EER: Anaconda Prompt c3 X: 


CF:“Anaconday CG:WsersLP>python 13 RITE 
Python 3.6.3 :: Anaconda, Inc. 


Fs“Anaconday CG: sers“LP yconda list 
# packages in environment at F:Anaconda: 


ipyw_jJlab_nb_ext_conf 
labaster 
anaconda 
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pu36hc 728852 H 

DIEI EIOS ES 
pyjbhbe/Tfaa_i 
pu36h9d8529'? H 

I EIU E A KH S 
pu3pb6h35dd4d4c1_ 上 
nITR13 (058 ER LT T A I 

ES 1.0.0 pu36h79ah834. 2 
T py3bhd4dcc5ed 1 

| pu3b6 hbaf 124b. H 
puJ6h7e685f ? H 
py3óhĝaz29ca5_6 

IURIS EVERTI S 
pu36hBbe3b39 H " 


naconda-client 
anaconda-nauigator 
anaconda-proJject 
asnicrypto 


L| 


astroid 
Stropy 

babel 

backports 


pi 
日 
9 
1 
1. 
日 
p 
1 
2 
2 


目 


hackports.shutil get termina 
)yeautifulsoup4 " 
hitarray j. 
bkcharts 
blaze 
bleach 


bokeh 


NE e. 
k © H. U mím Ga 


j=i 
E 
Cul 





E M åO G 


| s 
- 
c 


图 1.8 查看 包 


通过 conda 命 令 可 以 进行 包 的 安装 和 印 载 ， 也 可 以 通过 pip 命 令 进行 包 的 安装 和 下 载 。 具 体 使 用 方法 如 下 : 








conda install xxx XXX 为 包 名 称 
conda remove xxx ERE 

pip install xxx 

pip uninstall xxx 





























AFS: 建议 使 用 conda 命 令 安装 包 ， 在 出 错 的 情况 下 ， 再 考虑 使 用 pip 命 令 进行 安装 。 


conda 的 环境 管理 功能 允许 开发 者 同时 安装 若干 不 同 版 本 的 Python。 对 于 不 同 的 项 目 而 言 ， 使 用 独立 稳定 的 Python 环境 很 重要 ， 以 下 就 是 安装 Python 环境 的 conda 命 令 。 















































conda create --name xxx Python=2 xxx 为 环境 名 称 ， 创 建 了 python 版 本 为 2 的 环境 
conda create --name xxx python-3 创建 了 Python 版 本 为 3 的 环境 
conda create --name xxx Python=3 anaconda 创建 了 Python 版 本 为 3 的 环 


这 里 创建 一 个 名 为 data-analysis 的 Python 环境 ， 其 是 用 于 本 书 讲解 Python 数据 分 析 的 环境 。 由 于 数据 分 析 需 要 Anaconda 的 原生 包 ， 这 里 需 在 conda 命 令 末 尾 加 上 anaconda， 如 图 1.9 所 示 。 


创建 环境 成 功 后 ， 可 通过 activate data-analysis 命 令 进 入 该 环境 中 ， 通 过 deactivatedata-analysis 命 令 退 出 该 环境 ， 如 图 1.10 所 示 。 








activate XXX 
deactivate xxx 民 出 














nn 
EE 
Eds 








通过 以 下 命令 可 以 查看 Anaconda 的 环境 ， 方 便 用 户 进 行 Python 环境 的 管理 和 使 用 ， 如 图 1.11 所 示 。 





conda info -envs 


lI 管理 员 : Anaconda Prompt - conda create --name data-analysis python=3 anaconda 


ET 
Fetching package metadata ............. 
solving package specifications: 


Package plan for installation in environment F:'*Aünaconda*envus wlata-analusis: 
he following NEW packages will be INSTALLED: 


.?.18-pu36hcdBH'7829 H 
MI ee RE: 
PETIERE] É 
.6.9-puy36hc728852 8 
,8.8-pu36h8b3bf89 8B 
-22 .8-py36h8e'79f aa 1 
.3-py36h9d85297_0 
H.2-py36hý63?ic4_4 
5.H-pu36h35444c1 HW 
.B-pu36h81696a8 1 
日 .日 
6.H 


alabaster: 
anaconda: 

ETE DTI hl 
anaconda-nauigator: 


anaconda-pro Ject : 

asnicrupto: 

astroid: 

astropyu: 

babel: 

backports: 

backports .shutil_get_terminal_size: 
heautifulsoup4d: 

hitarray: 

bkcharts: 

blaze: 
hleach: 
bokeh: 


.Hpy36hroabd3d_2 

py36hddcc5eg 1 

.8.1—py36hbaf124bh 0 

.2-py3bhreb85f7_0 

Wy Wh We eR 日 
.Bg—-py36hlave3d6_0 

12 .18-7py36hBhe3b33 87 





L-E-E--N--N--Pu M MN: gu- 





























图 1.9 ”创建 Python 环境 


| | 





e“, used_mode: “svstem’ 


DEBUG menuinst_win32:createć{299): Shortcut cmd is F:Anaconda*^pythonw.exe, args 
are ['F:W\VAnacondan eup. py; FE: hnaconda Wenvs"“ data—analys1is 。 F:NAnaconda' 
“envs™“™ data-analysis pythonw.exe” 。 "F:“ “naconda Wenvs"“ "data-analysis "ocripts’ 
sspyuder-script.pu' ] 
DEBUG menuinst_wind2:createt299): Shortcut cmd is F:\Anaconda python.exe, args a 
Pe i F: nW Anaconda eup. py. E: n\Anaconda Menys ata-ana lysis’, *FiNAnacondans 
(nus Ndata-analusis's*puthon.exe', 'F:*Minaconda'*s*enus *Ndata-analusis Waocripts™"s 
puder-script.py', '--reset'] 
t To activate this environment, use: 

* activate data-analysis 


Io deactivate an active environment, use: 
* deactivate 


* for pover-users using bash, you must source 


(F: Anaconda) G:Wsers\>LP>activate data-analysis 


cdata-analysis?) G:Wsers>LP>deactivate data-analysis 


HHRCIETAO ERR 





























图 1.10 激活 和 退出 环境 


MI EE: Anaconda Prompt oB x 


ccF:“Anaconda» C:Wsers\>LFE>conda info n LL 


conda environments: 


data-ana lysis F: Minaconda*envus wlata-analysis 
voot * 下 :hnacondga 


<F:Anaconday CG: Msers"“LP,» 





图 1.11 查看 环境 


对 于 需要 卸载 的 环境 ， 可 以 通过 以 下 命令 来 完成 。 











conda remove --name xxx --all 删除 一 个 已 有 的 环境 














Jupyter Notebook 是 一 个 互动 性 极 好 的 编辑 器 ， 支 持 运行 Python 语言 。 本 节 将 介绍 Jupyter Notebook 的 使 用 方法 。 


Jupyter Notebook 是 一 个 交互 式 笔记 本 ， 支 持 多 种 编程 语言 。 由 于 其 具有 较 好 的 操作 性 和 交互 性 ，Python 数 据 分 析 常 用 到 该 工具 。 
a 环境 中 自 带 Jupyter Notebook。 如 果 没 有 使 用 Anaconda 环 境 ， 可 用 pip install jupytet 命 令 进行 安装 。 

对 于 编程 而 言 ， 编 写 的 代码 总 是 希望 存储 在 相应 创建 好 的 文件 夹 中 ， 这 样 方便 代码 的 管理 ， 读 者 可 通过 简单 的 命令 更 改 工作 空间 。 
A 也 可 修改 配置 文件 ipython_notebook_config.py， 这 里 不 做 介绍 。 

(1) 运行 Anaconda， 激 活 相应 的 环境 ， 如 图 1.12 所 示 。 


(2) 通过 以 下 命令 切换 到 工作 空间 中 ， 如 图 1.13 所 示 。 


H: 
cd H:Npython 数 据 分 析 \ 代 码 


ME EEG: Anaconda Prompt oE x 





CF: Anaconda?) GG: “sers“LP activate data-analysis 


cdata-analysis) G: sers"“LP,» 





图 1.12 ”激活 环境 


r 


| : E Z 
MI EER: Anaconda Prompt 局 | 加 | 站 


FF:“Anaconda? GG: sers“LP yactivate data-analysis 
data—analys1is) G:Wsaers LPH: 


cdata-analysis) PRI H:Spython g YHE TT ND 


(data-analusis? H: NpythonZ TTE 5 TT NLIS 





图 1.13 ”切换 工作 空间 


(3) 最 后 输入 jupyter notebook 并 回 车 ,浏览 器 被 弹出 ， 并 且 会 进入 Jupyter Notebook 主 界面 ， 如 图 1.14 所 示 。 


~ Home x 
C | © localhost 88858/tree ra 
— Jupyter -- 
Files Running Clusters 
Select iterns to perform actions on them Upoad New- © 
= in Name4^ — LastModised 4 


图 1.14 Jupytetr 主 界面 


公 注 意 : 建议 使 用 Chrome 浏 览 器 作为 计算 机 的 默认 浏览 器 。 


1.2.2 ”界面 介绍 与 使 用 


在 Jupyter 主 界面 中 ， 只 需 选 择 New|Python 3 命令 ， 就 可 以 新 建 一 个 用 于 编写 Python 程序 的 Notebook 了 ， 如 图 1.15 所 示 。 


b Jupyter Logout 


Files Running Clusters 


Select items to perform actions on them. Upload | Newv| 2 
Notebook: 


~ m ^ 
Python 3 
Notebook list empty 


Other: 
Text File 
Folder 


Terminals Unavailable 





图 1.15 ”新 建 Notebook 


在 Notebook 界 面 中 ， 可 以 看 到 主要 由 以 下 几 部 分 构成 ， 如 图 1.16 所 示 。 


* Notebook 名 称 ; 


“ 主 工具 栏 : 提供 保存 、 导 出 、 运 行 等 选项 ; 


. 快捷 按钮 : 常用 的 快捷 按钮 ; 


“ 代码 编辑 区 域 。 


二 Jupyter 


File E di 


图 1.16 ”Notebook 界 面 介 绍 
a 本 文 主要 讲解 如 何在 Notebook 中 编写 Python 代码 ， 工 具 不 多 做 介绍 。 


代码 编辑 区 域 是 由 代码 单元 格 (code cell) 组 成 ， 在 这 种 类 型 的 单元 格 中 输入 Python 代码 ， 通 过 Shift+ Enter 组 合 键 即 可 运行 代码 ， 


n Ju pyter Untitled Last Chec kpoint: 20 minutes ago (autosaved) 
Kemel Help 


^ * WM B C Code 


for i in range(5): 
print (1) 


图 1.17 ”编写 Python 代码 





运行 后 光标 会 被 移动 到 一 个 新 单元 格 中 ， 如 图 1.17 所 示 。 





Notebook 可 修改 运行 过 的 代码 ， 通 过 光标 移动 到 第 一 个 单元 格 ， 修 改 代码 后 重新 运行 ， 这 时 会 发 现 前 面 中 括号 中 的 数字 已 变 为 3， 体 现 出 了 极 好 的 互动 性 和 操作 性 ， 如 图 1.18 所 示 。 


s JU pyter Untitled Last Chec kpoint: 25 minutes ago (unsaved changes) 


File Edit View nsert Cel Kemel Help 


for i in range(5): 
print (i) 


图 1.18 ”修改 代码 


如 图 1.19 所 示 ， 在 Notebook 中 ， 也 可 以 通过 改变 单元 格 类 型 来 输入 文本 信息 。 





Jupyter Untitled Last Checkpoint: 30 minutes ago (autosaved) Logout 


File Edit View nsert el Kerne Hel 





for i in range(5): 
print (i) 





图 1.19 写 入 文本 


eum: 文本 格式 为 Markdown， 读 者 可 自行 查阅 该 语法 。 


第 2 草 ”NumPy 入 门 和 实战 


NumpPy 库 是 用 于 科学 计算 的 一 个 开源 Python 扩充 程序 库 ， 是 其 他 数据 分 析 包 的 基础 包 ， 它 为 Python 提供 了 高 性 能 数组 与 矩阵 运算 处 理 能 力 。 本 章 将 讲解 多 维 数组 的 创建 及 其 基本 属性 、 数 组 的 切片 和 
索引 方法 、 数 组 的 运算 与 存 取 等 内 容 ， 最 后 通过 一 个 综合 示例 ， 实 现 图 像 的 变换 功能 。 


下 面 给 出 本 章 涉及 的 知识 点 和 学 习 目 标 。 
.ndattay 数 组 : 学 会 数组 的 创建 和 属性 。 
数组 选择 : 学 会 数组 的 切片 和 索引 方法 。 
| 数组 运算 : 学 会 数组 的 各 类 运算 方法 和 使 用 。 
| 数组 存 取 : 完成 数组 的 存储 和 读 取 方法 。 


CER SEXE: 了 解 图 像 的 处 理 方法 。 


2.1 ndarray 多 维 数 组 


NumpPy 库 为 Python 带 来 了 真正 的 ndarray 多 维 数 组 功能 。ndarray 对 象 是 一 个 快速 而 灵活 的 数据 集 容器 。 本 节 主 要 讲解 ndarray 多 维 数组 的 创建 方法 、 数 组 的 属性 和 数组 的 简单 操作 等 内 容 。 


2.1.1 创建 ndarray 数 组 


通过 NumpPy 库 的 array 函 数 ， 即 可 轻松 地 创建 ndarray 数 组 。NumPy 库 能 将 序列 数据 (列表 、 元 组 、 数 组 或 其 他 序列 类 型 ) 转换 为 ndarray 数 组 ， 如 图 2.1 所 示 。 


对 于 多 维 数组 的 创建 ， 使 用 嵌 套 序列 数据 即 可 完成 ， 如 图 2.2 所 示 。 


通常 来 说 ，ndarray 是 一 个 通用 的 同 构 数据 容器 ， 即 其 中 的 所 有 元 素 都 需要 是 相同 的 类 型 。 当 创建 好 一 个 ndarray 数 组 时 ， 同 时 会 在 内 存 中 存储 ndarray 的 shape 和 dtype。shape 是 ndarray 维 度 大 小 的 
元 组 ，dtype 是 解释 说 明 ndarray 数 据 类 型 的 对 象 ， 如 图 2.3 所 示 。 


import numpy as np 


datal = [5, 7, 9, 20] E E. 
arrl = np. array (datal) 
arri 


array([ 5, 7, 9, 20]) 
data2 = (5, 7, 9, 20) 


arr2 = np. array (data2) 
arr2 


arrav([ 5, 7, 9, 20]) 





图 2.1 创建 ndarray 数 组 


dataj = ELT, 2; J, 4], [5, B, T, 8]] 
arr3 = np. array (data3) 
arrJj 


array([[1, 2, 3, 4], 
[5, 6, 7, 8]]) 





图 2.2 ”创建 多 维 数组 


从 图 2.3 中 可 以 看 出 ， 在 创建 数组 时 ，NumPy 会 为 新 建 的 数组 推断 出 一 个 合适 的 数据 类 型 ， 并 保存 在 dtype 对 象 中 ， 如 图 2.4 所 示 。 当 序列 中 有 整数 和 浮 点 数 时 ，NumPy 会 把 数组 的 dtype 定 义 为 浮 点 数 
据 类 型 。 


arr3. shape 








arr3.dtype 


dtype Ü int32') 


图 2.3 ”ndarray 属 性 





datad = [1.2, 2, 3.45, 5] 
arrd = np. array (datad) 
arrd 


array([ 1.2 , 2. 


arrd. dtype 


dtvpel float64 ) 





图 2.4 dtype 数 据 类 型 
Cors: 也 可 以 通过 显 式 说 明 ， 给 数组 指定 数据 类 型 。 
除了 可 以 使 用 np.array 创 建 数组 外 ，NumPy 库 还 有 一 些 国 数 可 创建 一 些 特殊 的 数组 。 下 面 简 单 介绍 几 个 常用 的 数组 创建 函数。 
1. zerosERZi 


zeros 函 数 可 以 创建 指定 长 度 或 形状 的 全 0 数组 ， 如 图 2.5 所 示 。 


np. zeros (8) 


array([ O., 


np. zeros l (3, 4)) 

array([[ 0.， 
a 
EO 





2. ones 国 数 


ones 函 数 可 以 创建 指定 长 度 或 形状 的 全 1 数组 ， 如 图 2.6 所 示 
A, Lc. 7]ve 


np. ones (4) 


array([ 1.,  1., 


np. ones | (4, 6) ) 





3. emptyeRgZi 


emptyERZin]L 没 
pty 函 数 可 以 创建 一 个 没有 具体 值 的 数组 〈 即 垃圾 值 ) ， 如 图 2.7 所 示 
D Lc. 7Jvo 


np. empty( (2, 2, 2)) 


arrayl[l[[ 8.25089629e-322, 2. 391277 13e-321], 


[ 2.47032823e-323, | 3.90344271e-316]], 


[[ 0.00000000e*000, | 2.47032823e-323], 
[ 3.90350911e-316, —0.00000000e*000] ] ] ) 





图 2.7 empty% žk 


Oum : 数据 类 型 基本 都 是 float64。 
4. arange 国 数 


arange 卫 数 类 似 于 Python 的 内 置 函数 range， 但 是 arange 国 数 主 要 用 于 创建 数组 ， 如 图 2.8 所 示 。 


np. arange 10. 


array([O, 1, 2, 3, 4, 5, 





图 2.8  arangerf žk 
更 多 的 数组 创建 函数 ， 可 以 参考 表 2.1。 


表 2.1 数组 创建 函数 





ER 数 使 用 说 明 
arange 类 似 于 内 置 的 range 函 数 ， 用 于 创建 数组 
ones 创建 指定 长 度 或 形状 的 全 1 数组 
ones like 以 另 一 个 数组 为 参考 ， 根 据 其 形状 和 dtype 创 建 全 1 数组 
zeros. zeros like 类 似 于 ones、ones like， 创 建 全 0 数组 
empty. empty like 同上 ， 创 建 没 有 有 具体 值 的 数 
eye. identity 创建 正方 形 的 YX N 单 位 窍 阵 


这 里 再 介绍 下 ones like 函 数 的 用 法 ， 如 图 2.9 所 示 。ones like 函 数 可 以 根据 传 入 的 数组 形状 和 dtype 创 建 全 1 数组 。 


arr3 
array([[1, 2, 3, 4], 
[5, 6, 7, 8]]) 


arrb = np.ones likeíarr3) 
arrb 


array([[i1, 1, 1, 1l, 
LH Do GHA 


arrb.dtype 


dtype C int32” | 





图 2.9 ones likeuf) 4t 4 M 7X 


2.1.2. ndarray 对 象 属性 


NumpPy 创 建 的 ndarray 对 象 属性 ， 如 表 2.2 所 示 。 


表 2.2 hdattay 对 象 属 性 


属 性 使 用 说 明 
ndim 秩 ， 即 数据 轴 的 个 数 
.Shape 数组 的 维度 
„size 76 3 If ds] 
.dtype 数据 类 型 
.itemsize 数组 中 每 个 元 率 的 字 节 大 小 


对 于 shape 和 dtype 属 性 在 前 面 已 经 讲 过 ， 这 里 看 下 其 他 属性 的 使 用 ， 如 图 2.10 所 示 。 


arr 数 组 的 数据 类 型 是 int32 位 的 ， 对 于 计算 机 而 言 ，1 个 字 节 是 8 位 ， 所 以 arr 的 itemsize 属 性 值 为 4。 


data = [[2, 4, 51], [3,5, 71] 
arr = np. array (data) 


arr 
arrayl[[2, 4, 5], 

[3, 5, 711) 
arr.ndim 


2 


arr. Size 


8 


arr.itemsize 


d 


arr. dtype 


dtype Ü int32') 





图 2.10 ”数组 属性 


2.1.3 ndarray 数 据 类 型 


由 前 面 内 容 得 知 : 在 创建 数组 时 ，NumpPy 会 为 新 建 的 数组 推断 出 一 个 合适 的 数据 类 型 。 同 样 ， 也 可 以 通过 dtype 给 创建 的 数组 指定 数据 类 型 ， 如 图 2.11 所 示 。 


arri = np. arange (5) 
arrl 


arrayl [0, 1, 2, 3, 4]) 


arr1. dtype 


dtype Ü int32) 


arr2 = np. arange (5, dtype= float64') 
arr z 


array([ O.,  1., 


arrz.dtype 


dtype | float64 ) 





图 2.11 指定 数据 类 型 
数组 的 数据 类 型 有 很 多 ， 读 者 只 需要 记 住 最 常见 的 几 种 数据 类 型 即 可 ， 如 浮 点 数 (float) 、 整 数 (int) 、 复 数 (complex) 、 布 尔 值 (bool) 、 字 符 串 (string ) 和 Python 对 象 (object) 。 


对 于 创建 好 的 ndarray， 可 通过 astype 方 法 进行 数据 类 型 的 转换 ， 如 图 2.12 所 示 。 


arri = np. arange (6) 
arrl 


array(l[O, 1, 2, 3, 4, 5]) 


arrl. dtype 

dtype ( int32 ) 

arr2 = arrl.astypelnp.float64) 
arr2 


arravlt [tO Es Bs Ss 4d Bb 


arr2. dtype 


dtype | float64' ) 


arr3 = arrl.astype( string ) 
arr j 


ara [lb 0 ET Bo ES E EEN 
dtype-' | $11!) 


arrd. dtype 


dtypel S11 ) 


图 2.12 ”astype 方 法 
at np.float64 和 “float64” 都 可 以 完成 操作 。 
如 果 将 浮 点 数 转换 为 整数 ， 并 不 会 使 用 四 舍 五 入 的 方式 来 转换 ， 而 是 元 素 的 小 数 部 分 都 会 被 截断 ， 如 图 2.13 所 示 。 


如 果 数 组 是 字符 串 类 型 且 全 是 数字 的 话 ， 也 可 以 通过 astype 方 法 将 其 转换 为 数值 类 型 ， 如 图 2.14 所 示 。 


arr = np.array([2.3, 7.5, 5.6, 9.8]) 
arr 


arrayl[ 2.3, 7.5, 5.6, 9.8]) 


arr. astypel int32 ) 


array(l[2, 7, 5, 9]) 





arry 

array([b'O', b'1', b'2, b'3', b'd', b'5'], 
dtype-' |511') 

arr3. astype np. int32. 


arrav([O, 1, 2, 3, 4, 5]) 





图 2.14 字符 串 转 换 为 数值 
但 如 果 字 符 串 中 有 字符 时 ， 转 换 时 就 会 报错 ， 如 图 2.15 所 示 。 


astype 方 法 也 可 以 通过 另外 一 个 数组 的 dtype 进 行 转换 ， 如 图 2.16 所 示 。astype 方 法 会 创建 一 个 新 的 数组 ， 并 不 会 改变 原 有 数组 的 数据 类 型 ， 如 图 2.17 所 示 。 


arr = np.array([ 2', 'hello']) 
arr 


array([ 2', 'hello'], 
dtype-' XU5' ) 


arr. astype int32' ) 


ValueError Traceback (most recent call last) 
Gpython-input-44-849446cb60045 in <module> 0 
一 一 > 1 arr.astype( int32') 


ValueError: invalid literal for int() with base 10: 'hello' 





图 2.15 ”转换 失败 


arri = np. arange (10) 
arrl.dtvpe 


dtype [ int32') 


arr2 = np. ones (5) 
arr 2. dtype 


dtype C float64') 
arrj = arrl.astypelarr2. dtype) 
arr3.dtvpe 


dtype C float64') 





图 2.16 类似 转换 


np. arange (3) 
arr.dtvpe 


dtype  int32') 


arr. astype( float64 | 


array([ O., 1., 2.]) 


arr 


array \ (0, 1, 2]) 





图 2.17 JR X 28. KALTA JL 


2.4.4 数组 变换 


1. 数组 重 塑 
对 于 定义 好 的 数组 ， 可 以 通过 reshape 方 法 改变 其 数据 维度 。 传 入 的 参数 为 新 维度 的 元 组 ， 如 图 2.18 所 示 。 


多 维 数组 也 可 以 被 重 塑 ， 如 图 2.19 所 示 。 


arr = np. arange (9) 
arr 


array([O, 1, 2, 3, 4, 5, 6, 


arr.reshape/(3,3)) 


arrav([[O, 1, 2], 
[3, 4, 5], 
l6, 7, 81]) 





图 2.18 ”数组 重 塑 1 


np.array([[3, 4, 5], [1, 


arr. reshape Í (3, 2) | 


array ([[3, 4], 
[5, 1], 
[2， 引 ] 





图 2.19 ”数组 重 塑 2 


reshape 的 参数 中 的 一 维 参数 可 以 设置 为 -1， 表 示 数 组 的 维度 可 以 通过 数据 本 身 来 推断 ， 如 图 2.20 所 示 。 


np. arange (12) 
arr. reshape í (3, —1) ) 


[4, 5, 6, 
[ 8, 9, 10, 





与 reshape 相 反 的 方法 是 数据 散 开 (ravel) 数据 或 扁平 化 (flatten) ， 如 图 2.21 和 图 2.22 所 示 。 


eum: 数据 重 塑 不 会 改变 原 数组 。 


arr = np. arange (10).reshape ((5, 2)) 
arr 


array ([[O, 1], 
[2, 3], 
[4, 5], 
[6, 7], 
[8，9] ] ) 


arr.ravel() 


array([O, 1, 2, 3, 4, 5, 6, 7, B, 9]) 


arr 


array([[O, 1], 
[2, 3], 
[4, 5], 
[6, 7], 
[8, 9]]) 


图 2.21 数据 散 开 


arr.flatten() 





array tio 32 3. 4. B2B. T. 8. 





图 2.22 ”数据 扁平 化 


2. 数组 合并 


数组 合并 用 于 几 个 数组 间 的 操作 ，concatenate 方 法 通过 指定 轴 方向 ， 将 多 个 数组 合并 在 一 起 ， 如 图 2.23 所 示 。 


arrl = np. arangeí(12).reshape(3, 4) 
arri 


arrav([[ 0 1, 2, $31, 
[4, 5, 86, T], 
[$&,..9, 106; 11]]) 


arr2 = np. arange(12,24).reshape(3, 4) 
arr 2 


array ([[12, 13, 14, 15], 
|16, 17, 18, 19], 
[20, 21, 22, 2311) 


np.concatenate([arrl, arr2],axis-0) 


arrayl[[ 0, 1, 2, 3], 
[4 5. B. 4]. 
[ 8 9, 10, 11], 


[12, 13, 14, 15], 
[16, 17, 18, 19], 
[20, 21, 22, 23]]) 


np.concatenate'[arrl, arr2], axis=1) 


array([[ O, 1, 2, 3, 12, 13, 14, 15], 
[4, 5, 6, 7, 16, 17, 18, 19], 
[ 3,. 9, 10. 4. 20,21. 22,-231]) 


图 2.23 ”数组 合并 1 
OE: 关于 轴 向 的 内 容 ， 将 在 数组 索引 中 进行 讲解。 


此 外 ，NumPy 中 提供 了 几 个 比较 简单 易 懂 的 方法 ， 也 可 以 进行 数组 合并 ， 如 vstack 和 hstack， 如 图 2.24 所 示 。 


np. vstack((arrl, arr2)) 


array([[ O, 1, 3], 
[ 4, aF | Ei, 
[8, 9, 10, 11], 
[12. 14^ DL dh]. 
[16, 17, 18, 19], 
[20, 21, 22, 23]]) 


np. hstack \ (arrl, arr2)) 

2 06 Zeus DX Dh 
Hi. do 15 dy. 49. 19]. 
10. 11. 20. 21. 22. 291]) 


3 





1 
9 
z 


图 2.24 ”数组 合并 2 


3 .数组 拆 分 


dis 
3]. 
5]. 
7], 
9], 
11]]) 


np. split arr, [2, 4]) 


[array([[O, 1], 
[2, 3]]), arrayí[l4, 5], 
[5, 7]1]), array([[ 8, 9], 
[10, 1111)] 





图 2.25 ”数组 拆 分 


4. 数组 转 置 和 轴 对 换 


转 置 是 数组 重 塑 的 一 种 特殊 形式 ， 可 以 通过 transpose 方 法 进行 转 置 。transpose 方 法 需要 传 入 轴 编 号 组 成 的 元 组 ， 这 样 就 完成 了 数组 的 转 置 ， 如 图 2.26 所 示 。 


除了 使 用 transpose 方 法 外 ， 数 组 有 着 T 属 性 ， 可 用 于 数组 的 转 置 ， 如 图 2.27 所 示 。 


arr = np. arange(12).reshape(3, 4) 


arr. transpose (1,0)! 


array([[ 0, 8], 
, 5, 9], 
; 510], 
2 Tedth 


图 2.26 ”数组 转 置 1 


[.4 
[ 2 
Pg 








图 2.27 数组 转 置 2 


Q 


ndarray 的 swapaxes 方 法 用 于 轴 对 换 ， 如 图 2.28 所 示 。 


arr = np.arangeli6).reshape((2, 2, 4)) 
arr 


array ([[[ 0, d: odds 
L4 o Gs Th 


[[ 8, 10. 11]. 
[12; 13, 14; 15]]]}) 


4], 
5], 
6], 
T1], 


12], 
Id 
14], 
15111) 





图 2.28 轴 对 换 


2.1.5 NumpPy 的 随机 数 函 数 


在 numpy.random 模 块 中 ， 提 供 了 多 种 随机 数 生成 函数 。 例 如 ， 可 以 通过 randint 函 数 生成 整数 随机 数 ， 如 图 2.29 所 示 。 


random 模 块 中 还 提供 了 一 些 概率 分 布 的 样本 值 函 数 ， 如 randn 函 数 ， 例 如 ， 生 成 平均 数 为 0， 标 准 差 为 1 的 正 态 分 布 的 随机 数 ， 如 图 2.30 所 示 。 


arr = np.random.randint(100, 200, size-í(5, 4)) 
arr 


arrav([[168, 180, 142, 134], 


[100, 106, 107, 147], 
[125, 170, 117, 192], 
[194, 172, 173, 102], 
[171, i71, 193, 180]]) 





图 2.29  randintr& žk 


arr = np.random.randn(2, 3, 5) 


arr 


array([[[-0.23022075, -1. 53376604, -1.20506611, -0.72058013,  1.69808677], 
[-1.62102742, -1.1053548 , 0.76182009, -1. 24876097, -1. 55001938], 


[ 0.04078704, 1.96669076，-2. 24999391, -1.08302149, 0. 52640131] ] ， 


[[ 0.09381983， 1. 16288913，-0. 15885707, 0.93718335, -0. 72444705], 
[-1. 68017525，-0. 18660456, 0.01881962， 0. 16711124，-1. 60857221], 
[ 0.93210884, -0.26899384, -0.35037258, -0.404521 , 1.07034161]]]) 





图 2.30  randnif žk 


通过 normal 函 数 生成 指定 均值 和 标准 差 的 正 态 分 布 的 数组 ， 如 图 2.31 所 示 。 


arr = np.random.normal(d, 5, size-(3,5)) 


arr 


array([[ $8.29188165,  -6.11855239, -1.5724349 ,  6.97515202, 


3. 83049015], 

[ 2.239089149, 7.81287044, -10.01907046, 3.68896253, 
3. 01140917], 

[ 10.68983038, | 7.63279875,  10.70678635, . 2.66406148, 
3. 76512045] ] ) 





图 2.31 normal% 2 


表 2.3 中 列 出 了 部 分 numpy.random 模 块 中 的 随机 数 函 数 。 


E Xx 
rand 
randint 
randn 
seed 
permutation 
shuffle 


uniform(low,high,size) 


ZO 数 
normal(loc,scale,size) 


poisson(lam,size) 


2.3 numpy.fandom 模 块 中 的 随机 数 函 数 


使 用 说 明 
产生 均匀 分 布 的 样本 值 
给 定 范 围 内 取 随 机 整数 
产生 正 态 分 布 的 样本 值 
随机 数 种 子 
对 一 个 序列 随机 排序 ， 不 改变 原 数组 
对 一 个 序列 随机 排序 ， 改 变 原 数组 
产生 具有 均匀 分 布 的 数组 ，low 表 示 起 始 值 ，high 表 示 络 束 值 ，size 表 示 形 状 


使 用 说 明 
产生 具有 正 态 分 布 的 数组 ，loc 表 示 均 值 ，scale 表 示 标 准 差 
产生 具有 泊 松 分 布 的 数组 ，lam 表 示 随 机 事件 发 生 率 


最 后 来 看 看 permutation 和 shuffle 函 数 的 用 法 ， 如 图 2.32 和 图 2.33 所 示 。 


arr = np. random. randint (100, 200, size-(5, 4)) 


arr 


array [[147, 
[151, 
[129, 
[197, 


[128, 


122, 
152, 
140, 
126, 
174, 


130, 
117, 
111, 
176, 
117, 


169], 
119], 
131], 
199], 
143]]) 


np.random.permutation(arr) 


array([[151, 
[197, 
[128, 
[147, 
[129, 


arri 


array ([[147, 
[151, 
[129, 
[197, 
[128, 


152, 
126, 
174, 
122, 
140, 


117, 
176, 
117, 
130, 
111, 


119], 
199], 
143], 
169], 
131]]) 





图 2.32 permutation% žk 


: np.random.randint(100, 200, size-(5, 4)) 


array([[196, 140, 199, 182], 
[161, 1098, 193, 176], 
[102, 138, 165, 166], 
[191, 181, 108, 113], 
[168, 102, 199, 150]]) 


np. random. shuffle (arr) 


arr 


array ([[168, 
[191, 
[102, 
[161, 
[196, 





图 2.33 shuffle $ 2c 


2.2 效 组 的 系 3 引 和 切 户 


在 数据 分 析 中 常 需 要 选取 符合 条 件 的 数据 ， 本 节 将 主要 进 解数 组 的 索引 和 切片 方法 ， 并 学 会 数组 的 灵活 选择 。 


2.2.1 数组 的 索引 


一 维 数 组 的 索引 类 似 Python 列 表 ， 如 图 2.34 所 示 。 


import numpy as np 


np. arange (10) 


array([O, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 


arr [3] 





array([ O, 1l, 123, 


图 2.34 ”数组 索引 1 


从 代码 中 可 以 看 出 ， 数 组 的 切片 返回 的 是 原始 数组 的 视图 。 简 单 地 说 ， 视 图 就 是 原始 数组 的 表现 形式 ， 切 片 操 作 并 不 会 产生 新 数据 ， 这 就 意味 着 在 视图 上 的 操作 都 会 使 原 数组 发 生 改 变 ， 如 图 2.35 所 


个 \。 


1, 123, 


array([T, 8]) 


axrll:] = 77 
arr 


array([ 0, 1, 123, 





图 2.35 ”数组 索引 2 


eum: 数组 的 切片 和 索引 返回 都 是 原始 数组 的 视图 。 


如 果 需 要 的 并 非 视图 而 是 要 复制 数据 ， 则 可 以 通过 copy 方 法 来 实现 ， 如 图 2.36 所 示 。 


arr 


array([ O, l; 128; 


= arr[i].copy (í) 
34 


array([ O, l; 123, 





图 2.36 ”数组 索引 3 


对 于 二 维 数组 ， 可 在 单个 或 多 个 轴 向 上 完成 切片 ， 也 可 以 跟 整 数 索 引 一 起 混合 使 用 ， 如 图 2.37 所 示 。 


arr = np. arange(15).reshape(3, 5) 
arr 


array([[ O0, 1, 2, 3, 4], 
[ D, | iP 8, 9], 
[10;: 13; 432; £3; AA) 


arr [0] 


array ([O, 1, 2, 
YLO, L 


arr |2 | 


array([10, 11, 12, 13, 14]) 





图 2.37 二 维 数 组 索引 1 


如 果 需 要 获取 各 个 元 素 ， 可 通过 以 下 办 法 ， 如 图 2.38 所 示 。 


arr 


array(il 0, 1; 2, 3, d], 
[5, 6, 7, 8, 9], 
[10, 11, 12, 13, 14]]) 


arr [0] [3] 


J 


arr [2, 3] 


13 





图 2.38 ”二 维 数组 索引 2 


如 果 读 者 觉得 代码 不 直观 的 话 ， 可 通过 图 2.39 来 理解 轴 的 概念 和 二 维 数组 的 索引 方式 。 在 高 维 数组 中 ， 如 果 省 略 后 面 的 索引 ， 则 会 返回 低 一 个 维度 的 数组 ， 如 图 2.40 所 示 。 


axis ] 


0 ] 2 
[ST 
[eee 


arr = np. arange(12).reshape(?2, 2, 3) 
arr 


array{ [[[ Ü, 2], 
D5,. 4 Bll 


[[6, 7, 8], 
[ 9, 11]]] ) 


arr [0] 


array([[O, 1, 2], 





图 2.40 “高 维 数组 索引 1 
标量 值 和 数组 都 可 以 复制 给 arr[0]， 如 图 2.41 所 示 。 


同样 ， 类 似 于 二 维 数组 的 切片 ， 也 可 以 索引 到 想 要 的 部 分 元 素 或 单个 元 素 ， 如 图 2.42 所 示 。 


old = arrl0]. copy () 


arr[O] = 12 

arr 

array ( [[[12, 
[12, 


arr [0] = old 
arr 


array ([[[ 0, 
D; 3, 


12], 
12]], 


8], 
11]1]) 


2], 
51], 


8], 
; Xill] 





array([[[ O0, 1, 2], 
La 3b BI 


8], 
11111) 


arr[1, 1] 


arravy([ 9, 10, 11]) 





图 2.42 ”高 维 数组 索引 3 


2.2.2 ”数组 的 切片 


一 维 数组 的 切片 同样 类 似 于 Python 列表 ， 如 图 2.43 所 示 。 


多 维 数组 的 切片 是 按照 轴 方 向 进行 的 ， 当 在 中 括号 中 输入 一 个 参数 时 ， 数 组 就 会 按照 0 轴 (也 就 是 第 一 轴 ) 方向 进行 切片 ， 如 图 2.44 所 示 。 


arr = np. arange (6) 
arr 


array([O, 1, 2, 3, 4, 5]) 


arr|2:5| 


array([2, 3, 4]) 





图 2.43 ”一 维 数 组 切片 


arr = np. arange(12).reshape(4, 3) 
arr 


2], 

5], 

"U WI 
10, 111]? 


array (| 


array([[ 6, 7, 8], 
[ 9, 10, 1111) 





图 2.44 ”多 维 数组 索引 1 


通过 传 入 多 个 参数 (可 以 是 整数 索引 和 切片 ) ， 即 可 完成 任意 数据 的 获取 ， 如 图 2.45 所 示 。 


array([ 1, 


arin 1:21 


array([[ 1], 
[ 4], 
[ 7], 
[10]]) 


arr |2: 


arrayl[[ ts 8], 
[10, 11]]) 





图 2.45 ”多维 数组 索引 2 


OES: 只 有 使 用 冒号 才 会 选取 整个 轴 。 


2.2.3 ”布尔 型 系 引 


首先 创建 两 个 数组 ， 如 图 2.46 所 示 。 


如 果 每 个 水 果 对 应 于 datas 数 组 中 的 每 一 行 ， 我 们 要 取出 ‘pear 对 应 的 datas 的 行 ， 这 时 就 需要 用 到 布尔 选择 器 ， 如 图 2.47 所 示 。 


fruits = np.array([ apple', 'banana', 'pear', 'banana', 'pear', 'apple', 'pear']) 
datas = np.random.randint(-1, 1, size-(7,5)) 


fruits 


3 3 3 3 3 3 3 3 3 3 3 3 3 3 
array([ apple', 'banana', 'pear', 'banana', 'pear', 'apple', 'pear'], 
dtype-' XU6' ) 





图 2.46 ”数组 情况 


fruits -- 


array([False, False, True, False, True, False, True], dtype-bool) 


datas[fruits == 'pear'] 


array í [ D 


[7-1 
[0 
[0 


3 





图 2.47 布尔 型 索引 1 
Ou. 布尔 型 数组 的 长 度 必须 和 被 索引 的 轴 长 度 一 致 。 


既然 可 以 使 用 布尔 选择 ， 那 么 也 同样 适用 于 不 等 号 (! =) 、 负 号 (-) 、 和 (8) 、 或 (|) ， 如 图 2.48 所 示 。 


3 


datas[fruits !- 


TES 
"i 

0, 
"1. 


'apple!) | (fruits == 


atj 





图 2.48 布尔 型 索引 2 
此 外 ， 布 尔 数组 也 可 以 结合 切片 和 索引 来 使 用 ， 如 图 2.49 所 示 。 


通过 以 下 代码 可 以 完成 datas 数 组 中 的 0 值 蔡 换 为 1 值 ， 如 图 2.50 所 示 。 


datas [fruits == 'pear',2:] 


array([[-1, -1, 0], 
[0, O0, H, 
PE Q, -1]]3 


datas|fruits == 'pear',2| 


array([-1, 0, -1]) 


图 2.49 布尔 型 索引 3 





datas[datas == O0] = 1 
datas 


3 


arrayíi[ 


[.1 
[71 
[71 
[71 
[ 1 
E: 
[ 1 


3 





2.2.4 花 式 索引 


伦 式 索引 是 NumpPy 中 的 术语 ， 它 可 以 通过 整数 列表 或 数组 进行 索引 ， 如 图 2.51 所 示 。 也 可 以 使 用 np.ix_ 卫 数 完 成 同样 的 操作 ， 如 图 2.52 所 示 。 


arr[[1, 3, 21] 


[ 3, 4, 5]. 
[ 9, 10, 11], 
[6, 7, 8})) 


arith 2HE:,.. I2. 11] 


array([[11, 10], 
[8, 7]]) 





图 2.51 花 式 索引 1 


arr [np. ix. (13,2], [2，1 | 


array([[i11, 10], 
[8, 7]]) 


Bj2.52 ” 花 式 索引 2 





2.3 ”数组 的 运算 


数组 的 运算 支持 向 量化 运算 ， 将 本 来 需要 在 Python 级 别 进 行 的 循环 ， 放 到 C 语 言 的 运算 中 ， 明 显 地 提高 了 程序 的 运算 速度 。 本 节 将 讲解 数组 的 各 种 运算 方法 。 


2.3.1 数组 和 标量 间 的 运算 


数组 之 所 以 很 强大 而 且 重 要 的 原因 ， 是 其 不 需要 通过 循环 就 可 以 完成 批量 计算 ， 也 就 是 矢量 化 ， 如 图 2.53 所 示 。 相 同 维度 的 数组 的 算术 运算 都 可 以 直接 应 用 到 元 素 中 ， 也 就 是 元 素 级 运算 ， 如 图 2.54 所 


= [1, 
b = [] 
for i in a: 
b. append(i * 10) 
b 


[10, 20, 30] 


arr = np. arrayl [1, 
arr * 10 


array \[10, 20, 30]) 





图 2.53 KEAL 


arr * arr 


array([1, 4, 9]) 


arr ^ ari 


arrayll0, 0, 0]) 





图 2.54 元素 级 运算 


2.3.2 jEFHEREN 


通用 遂 数 (ufunc) 是 一 种 对 数组 中 的 数据 执行 元 素 级 运算 的 函数 ， 用 法 也 很 简单 。 例 如 ， 通 过 abs 函 数 求 绝 对 值 ，square 函 数 求 平方 ， 如 图 2.55 所 示 。 


arr = np. random. randní3, 3) 
arr 


array([[-1. 30289625, -1.620828598, -0.02086971], 
[ 0.61681656, 1.44215576, 1.7281482 ], 
[-0. 96761142, 0.6475979 , -0.57524988]]) 


np. abs (arr) 


array ([[ 1.30289625,  1.62082859,  0.02086977], 
[ 0.61681656,  1.44215576,  1.7281482 ], 
[ 0.96761142, 0.6475979 , 0.57524988]]) 


np. square arr: 


array([[ 1. 69753863e+00, 2.62708531e*00, 4. 35547217e-04], 
[ 3. 80462668e-01, 2. OT981323et00, 2. 98649619e*00], 
[ 9.36271853e-01, . 4.19383043e-01, 3. 30912420e-01] ]) 





图 2.55 通用 函数 1 


以 上 函数 都 是 传 入 一 个 数组 ， 所 以 这 些 函数 都 是 一 元 函数 。 有 一 些 函 数 需要 传 入 两 个 数组 并 返回 一 个 数组 ， 这 些 函数 被 称 为 二 元 遂 数 。 例 如 ，add 逊 数 用 于 两 个 数组 的 相 加 ，minimum 函 数 可 以 计算 元 
素 最 小 值 ， 如 图 2.56 所 示 。 


有 些 通 用 函数 还 可 以 返回 两 个 数组 ， 例 如 modf 函 数 ， 可 以 返回 数组 元 素 的 小 数 和 整数 部 分 ， 如 图 2.57 所 示 。 


Coa: 更 多 通用 函数 的 用 法 ， 可 以 去 NumPy 官 网 http://www.numpy.otg/ 查 阅 。 


arri = np. random. randint{1, 10, size-(5)) 


arrl 

array([5, 2, 9, 4, 1]) 

arr2 = np.random.randint(1l, 10, size-(5)) 
arrz 


array([7, 6, 9, 1, 3]) 


np.addí(arrl, arr2) 


array([12, 8, 18, 5, 4]) 


np.minimum(arrl, arr2) 


array([5, 2, 9, 1, 1]) 





图 2.56 i88 2 


arr = np. random. normal (2, 4, size- (5, )) 
arr 


array ([ 4.03156633,  2.24471147, -1.05295999,  3.17361538,  9.45900887, 
2. 48014303]) 


np.modf arr. 


(array([ 0.03156633, 0.24471147，-0.05295999， 0. 45900887, 
0.48014303]), axray([ 4., 2., -1., 3., 





图 2.57 ”通用 函数 3 


2.3.3 条件 罗 辑 运算 


首先 创建 3 个 数组 ， 如 图 2.58 所 示 。 


= np.arrayl[i, 2, 3, 4]) 


= np.array([5, 6, 7, 8]) 
= np.array/[True, False, False, True]: 





图 2.58 创建 数组 


如 果 需 要 通过 cond 的 值 来 选取 arr1 和 arr2 的 值 ， 当 cond 为 True 时 ， 选 择 arr1 的 值 ， 否 则 选择 arr2 的 值 ， 那 么 可 以 通过 if 语句 判断 来 实现 ， 如 图 2.59 所 示 。 


result = [(x if c else y) for x, y, c in ziplarrl, arr2, cond)] 


result 


[1;-6, 7; 4] 





图 2.59 ”条件 逻辑 


但 这 种 方法 存在 两 个 问题 : 第 一 ， 对 大 规模 数组 处 理 速 度 不 是 很 快 ; 第 二 ， 无 法 用 于 多 维 数组 。 若 使 用 NumPy 的 where 函 数 则 可 以 解决 这 两 个 问题 ， 如 图 2.60 所 示 。 


result = np.where(cond, arri, arr2) 
result 


array(|1, 6, 7, 4]) 





图 2.60 where Z1 


where 函 数 中 的 第 二 个 和 第 三 个 参数 可 以 为 标量 。 在 数据 分 析 中 ， 经 常 需 要 通过 一 些 条 件 将 数组 进行 处 理 。 例 如 ， 新 建 一 个 随机 符合 正 态 分 布 的 数组 ， 通 过 数据 处 理 将 正 值 蔡 换 为 1， 负 值 蔡 换 为 -1， 如 
图 2.61 所 示 。 


arr = np.random.randn(d, 4) 
arr 


array([[ 0.99483299, -0.42559031,  0.60728194, -0. 28477079], 
[-0. 47341549, -1.03284446, -1.24692688, -0. 7168212 ], 
[-0. 2463296 , 0.9006737 , -0.8362647 , 0. 288600253], 
[ 0. 24025673, -1.14644973,  0.84133157, -0.00742223]1) 


new arr = np. wherelarr > O, 1, -1) 
new arr 





图 2.61 where% 4&2 


fs&Fgelifesa m] Los TA RHIF. np.whereERZIDR E EBwherezaA stt nTEASSXISIEERJZJBE, WUEI2.62BTzn. 


arr = np.random.randint(1l, 300, size= (3, 3)) 
arr 


array([[177, 177, 99], 
[238, 233, 131], 
[125, 288,  5]1]) 


new arr = np.where(arr > 200, 3, 
np.where(arr > 100, 2, 1)) 
new arr 


array ([[2, 
L3; 
[2, 





图 2.62 where 函数 3 


2.4 ”统计 运算 


NumPy 库 支持 对 整个 数组 或 按 指 定 轴 向 的 数据 进行 统计 计算 。 例 如 ，sum 函 数 用 于 求 和 ;mean 函数 用 于 求 算术 平均 数 ; std 函 数 用 于 求 标 准 差 ， 如 图 2.63 所 示 。 


arr = np.random.randn(4, 4) 
arr 


array { [[-0. 2460958 , -3. 56262609,  2.28878812, -0. 66155659], 
[-0. 32224876, -0. 62264566, 00.0759868 , -0. 50014849], 
[ 0. 38841614, 0. 2260369 , -0.61771424,  0.00538855], 
[-0. 29865896,  0.51231692, 0. 48119231，  0.06256321]]1) 


arr. sum () 


-2. 191005624651537 


arr. mean í) 


-0. 17443785154109606 


arr. std) 





1. 1141240674492316 


图 2.63 ”统计 计算 1 


上 面 的 这 些 函 数 也 可 以 传 和 axis 参数， 用 于 计算 指定 轴 方 向 的 统计 值 ， 如 图 2.64 所 示 。 


arr 


array([[-0.2460958 , -3.56262609,  2.288T78812, -0.66155659], 
[-0. 352224876, -0.62264566,  0.0759868 , -0.50014849], 
[ 0.38841614, 0. 2260369 , -0.61771424,  0.00538855], 
[-0. 20865896,  0.51231692, 0.48119231, 0.06256321]]) 


arr.mean(axis-1) 


array([ -5.45372587e-01,  -3.42264027e-01, ^ 5.31836566e-04, 
1. 89353371e-01]) 


arr. sum!Q) 





array([-0.47858738, -3. 44691793, 2.228253 , -1.09375332]) 


图 2.64 指定 轴 方 向 


cumsum 和 cumpod 方 法 会 产生 计算 结果 组 成 的 数组 ， 如 图 2.65 所 示 。 


arr = np. arange (8). reshape (3, 3) 
arr 


array([[O, 1, 2], 
[3, 4, 5], 
[6, 7, 8]]) 


arr. cumsum (0) 


array([[ 0, 1, 2], 
[ To 5 Th 
[ 9, 12, 15]], dtype-int32) 


arr. cumprod/1) 


array([I Q, 
f 8; 
[ 6, 42, 336]l], dtype-int32) 





图 2.65 ”统计 计算 2 


基本 数组 的 统计 方法 如 表 2.4 所 示 。 


表 2.4 基本 数组 统计 方法 


方 法 使 用 说 明 





sum 求 和 

mean 算术 平均 数 

std. var Fife 2517] E 

min, max Tg ^] (ERU CX TR 
argmin,. argmax Tg /] RUN 76 IRI RE | 
cumsum Fr 2638 IF] E VIRI 
cumprod Fr 7628 0] ES VEA 


2.3.55 ”布尔 型 数组 运算 


对 于 布尔 型 数组 ， 其 布尔 值 会 被 强制 转换 为 1 (True) 和 0 (False) ， 如 图 2.66 所 示 。 


arr = np. random. randn(20) 
arr 


array {Í [ 0. 64854453, -1.02444099, 1.18506546, 1.0588872 , -1.67297679, 
1. 11245385, -1. 47720606, 0.67531455, 0. 10707936， 1.60181681, 


-0. 09663766, 0.13821122, 2.08949018, -0.85208144, -1.01504574, 
-1.01749498, 0.42782922, -0.83512655, 0. 20623175, -0.23411408]) 


(arr > 0). sum () 


11 





图 2.66 布尔 型 数组 计算 1 


另外 ， 还 有 两 个 方法 any 和 all 也 可 以 用 于 布尔 型 数组 运算 。any 方 法 用 于 测试 数组 中 是 否 存 在 一 个 或 多 个 True; al 方法 用 于 检查 数组 中 的 所 有 值 是 否 为 True， 如 图 2.67 所 示 。 


arr = np. arrayl[True, False, False, Truel) 
arr 


array [ True, False, False, True], dtype-bool) 


arr. any () 


True 


arr. allí) 


False 





图 2.67 pq EXE 


2.3.6 排序 


与 Python 列表 类 似 ，NumPy 数 组 也 可 以 通过 sort 方 法 进行 排序 ， 如 图 2.68 所 示 。 


arr = np. random. randn (10) 
arr 


array([-0.06763165, 0. 70670621, -2. 28090762,  0.61654106,  0.35562341, 
0.57962632,  0.09817634,  1.52590085,  0.24640778, -0.69223728]) 


arr. sortí) 
arr 


array([-2.28080762, -0. 69223728, -0.06763165,  0.09817634,  0.246407'8, 
0.35562341, 0.5 7962632,  0.61654106, 0. 70670621,  1.52590085]) 





图 2.68 dE 


对 于 多 维 数组 ， 可 以 通过 指定 轴 方 向 进行 排序 ， 如 图 2.69 所 示 。 


arr = np.random.randní5, 3) 


. "6464658,  1.03958729, 0.83151511], 
.63188956, -0.62708685,  0.05175314], 
.85665906, -0.24305887,  1.30020042], 
.00108815, -1.49244044, -0.06771401], 
.26482398, -1. 42061605, -1.0372988 ]]) 


arr. sort(1) 
arr 


array([[ 0. 76464658,  0.83151511, 1 
[-0. 62708685, 1 0.05175314, 1 
[-0. 24305887, |0.85665906, 1. 30020042], 
2 
0 


|. 03958729], 
. 63188956], 


[-1. 49244044, -0. 06771401, 
[-1. 42061605, -1. 0372988 , 


. 00108815], 
. 26482398] ] ) 





图 2.69” 按 轴 排 序 


NumPy 库 中 提供 了 针对 一 维 数组 的 基本 集合 运算 。 在 数据 分 析 中 ， 常 使 用 np.unique 方 法 来 找 出 数组 中 的 唯一 值 ， 如 图 2.70 所 示 。 


fruits = np.array([ apple’, "banana , 'pear', banana , pear’, 'apple', 'pear']) 
fruits 


3 3 3 3 3 3 3 3 3 3 3 3 3 3 
array([ apple', 'banana', 'pear', 'banana', 'pear', 'apple', 'pear'], 
dtype-' XU6' ) 


np. unique (fruits) 


array([ apple', 'banana', 'pear'], 
dtype-' XU6' ) 


arr = np.array([2, 3, 3, 2, 8, 1]) 
arr 


array([2, 3, 3; 2; 8, 1l) 


np. unique arr. 





array([1, 2, 3, 8]) 


图 2.70” 找 出 唯一 值 
OE: 对 唯一 值 进行 了 排序 。 


np.in1d 方 法 用 于 测试 几 个 数组 中 是 否 包含 相同 的 值 ， 返 回 一 个 布尔 值 数 组 ， 如 图 2.71 所 示 。 


arr = np.array([2, 3, 5, 
arr 


array([2, 3, 5, 7]) 


np.inld'arr, [2,7]: 


array([ True, False, False, True], dtype-bool) 





数组 的 集合 运算 如 表 2.5 所 示 。 


Ah 法 使 用 说 明 
unique(x) 唯一 值 
intersectld(x,y) 公共 元 条 
unionld(x,y) 并 集 
inld(x,y) x 的 元 素 是 否 在 yy 中， 返回 布尔 型 数组 
setdiffld(x,y) 集合 的 差 


setxorld(x,y) 交集 取 反 


2.3.8 ”线性 代数 


前 面 讲 过 数组 的 运算 是 元 素 级 的 ， 数 组 相 乘 的 结果 是 各 对 应 元 素 的 积 组 成 的 数组 。 而 对 于 和 矩阵 而 言 ， 需 要 求 的 是 点 积 ， 这 里 NumPy 库 提供 了 用 于 和 矩 阵 乘法 的 dot 函 数 ， 如 图 2.72 所 示 。 


对 于 更 多 的 矩阵 计算 ， 可 通过 NumPy 库 的 linalg 模 块 来 完成 ， 如 图 2.73 所 示 为 计算 矩 阵 的 行列 式 。 


arri = np. array([[1, 2, 3], [4, 5, 6]]? 
arrl 


array([[1, 2, 3], 
[4, 5, 611) 


arr2 = np. arange(98).reshape (3, 3) 
arra 


array([[O, 1, 2], 
I3, 4, -h], 
[6, 7, 8]]) 


np. dot (arrl, arr2) 


array ([[24, 30, 36], 
[51, 66, 8111) 





E]2.72. EEF 


from numpy.linalg import det 


np.array([[1, 2], [3, 4]]) 


array Í [ [1, 2], 
[3, 4]]) 


det'arr. 


-2. 0000000000000004 





图 2.73 ”矩阵 行列 式 计 算 


Br: F $ 4E EA ADU v] S A lina gAs 9j. 


2.4 数组 的 仔 取 


已 经 处 理 好 的 数组 数据 需要 进行 存储 ， 而 存储 的 数据 也 需要 读 取 使 用 。 本 节 将 介绍 数组 的 存储 与 读 取 的 方法 。 


24.1 ”数组 的 存储 


通过 np.savetxt 方 法 可 以 对 数组 进行 存储 ， 具 体 实现 如 图 2.74 所 示 。 


arr = np. arange(12).reshape(4, 3) 


2]. 

B], 

8], 
1111) 





np.savetxt( ch2ex1. csv , arr, fmt= Xd ,delimiter-',') 


itype ch2exl. csv 





图 2.74 ”数组 存储 


24.2 ”数组 的 读 取 


对 于 存储 的 文件 ， 可 以 通过 np.loadtxt 方 法 进行 读 取 ， 并 将 其 加 载 到 一 个 数组 中 ， 如 图 2.75 所 示 。 


arr = np.loadtxt( ch2ex1. csv , delimiter= ， | 


arr 


array {[[ 
[ 
[ 
[ 





图 2.75 “数据 读 取 


2.5 ATA 











图 像 一 般 采 用 的 是 RGB 色彩 模式 ， 即 每 个 像素 点 的 颜色 由 R (ZI) . G ( 绿 ) . B ( 蓝 ) 组 成 。 通 过 三 种 颜色 的 鲁 加 可 以 得 到 各 种 颜色 ， 每 个 颜色 的 取 值 范围 为 0~ 255。Python 中 的 PIL 库 是 一 个 处 理 图 


像 的 第 三 方 库 ， 通 过 如 图 2.77 所 示 的 代码 可 以 把 如 图 2.76 所 示 的 图 片 转换 为 数组 格式 。 





图 2.76 图片 


from PIL import Image 
import numpy as np 


im = np. array (Image. open( C: /Users/LP/Desktop/2. 76. jpeg" )) 
print (im. shape, im. dtype) 


(350, 583, 3) uint8 


im 


array ([[[226, 
[226, 
[226, 


[198, 
[197, 
[196, 





[[226, 


图 2.77 图像 转 数组 
通过 图 中 的 代码 可 以 看 出 ， 图 像 转 换 成 三 维 数组 后 ， 维 度 分 别 为 宽度 、 长 度 和 RGB 值 。 
Com: 在 Anaconda 中 已 经 默认 安装 了 PIL 库 ， 库 名 为 pillow。 


转换 为 数组 后 ， 可 进行 数组 运算 ， 运 算 完成 后 将 其 保存 为 新 图 像 就 完成 了 图 像 的 变换 ， 如 图 2.78 和 图 2.79 所 示 。 


"a 
, 


b = [255, 255, 255] 一 in ssf£giEd* 


s 
" 


new im = Image.fromarray(b.astypel uint&8')) 
new im. save( C: /Users/LP/Desktop/2. 79. jpeg ) 





图 2.78 图 像 变换 





由 于 DataFrame 数 据 结构 为 二 维 表格 结构 ， 这 使 得 pandas 库 成 为 数据 分 析 的 “主力 军 
术 运 算 与 函数 的 使 用 ， 最 后 再 结合 一 个 综合 示例 ， 介 绍 数据 分 析 流程 和 pandas 的 可 视 化 。 


下 面 给 出 本 章 涉及 的 知识 点 和 学 习 目 标 。 
- pandas 数 据 结构 : 学 会 Sefies 和 DataFrame 的 创建 。 
.索引 操作 : 学 会 两 种 数据 结构 的 索引 方法 和 数据 选取 。 
` 数据 运算 : 学 会 两 种 数据 的 运算 和 函数 应 用 。 
* 层次 化 索引 : 学 会 创建 和 使 用 层次 化 索引 。 


: pandas 可 视 化 : 学 会 利用 pandas 绘 制 各 种 基本 图 形 。 


图 2.79 ”变换 图 片 


pandas 有 两 个 基本 的 数据 结构 : Series 和 DataFrame。 本 节 主 要 讲解 这 两 个 数据 结构 的 创建 和 基本 使 用 。 


Series 数 据 结构 类 似 于 一 维 数组 ， 但 它 是 由 一 组 数据 (各 种 Numpy 数 据 类 型 ) 和 一 组 对 应 的 索引 组 成 。 通 过 一 组 列表 数据 即 可 产生 最 简单 的 series 数据 ， 如 图 3.1 所 示 。 


from pandas import Series,DataFrame 
import pandas as pd 


obj = Series([1, -2, 3, -4]) 
ob] 





图 3.1 创建 Series 数 据 1 


Series 数 据 : 索引 在 左边 ， 值 在 右边 。 可 以 看 出 ， 如 果 没 有 指定 一 组 数据 作为 索引 的 话 ，Series 数 据 会 以 0 到 N-1 (NN 为 数据 的 长 度 ) 作为 索引 ， 也 可 以 通过 指定 索引 的 方式 来 创建 Series 数 据 ， 如 图 3.2 
所 示 。 


obj2 = Series([1, -2, 
ob12 





图 3.2 ”创建 Series 数 据 2 


Series 有 values 和 index 属 性 ， 可 返还 值 数据 的 数组 形式 和 索引 对 象 ， 如 图 3.3 所 示 。 


ob32. values 


array([ 1, -2, 3, -4], dtype-int64) 


ob 32. index 


Index([ a, 'b/', "c, '"d], dtype- object ) 





图 3.3 Seties 属 性 


series 与 普通 的 一 维 数组 相 比 ， 其 具有 索引 对 象 ， 可 通过 索引 来 获取 Series 的 单个 或 一 组 值 ， 如 图 3.4 所 示 。 


obj2[ c] = 23 
obj2[['c', ^a ]] 


C 2J 
d -4 
dtype: int64 





图 3.4 Series 5] 


Series 运 算 都 会 保留 索引 和 值 之 间 的 链接 ， 如 图 3.5 所 示 。 


Series 数 据 中 的 索引 和 值 一 一 对 应 ， 类 似 于 Python 字 上 典 数据 ， 所 以 也 可 以 通过 字典 数据 来 创建 Series， 如 图 3.6 所 示 。 


a 1 
b -2 
C 23 
d -d 
dtype: int64d 


d  -4 
dtype: int64d 
obj2 * 2 

a 2 

b -d 

C 46 

d TB 
dtype: intb4d 


import numpy as np 


np. abs/obj2 


a l 
h | 
C ej 
d 4 
dtype: int64d 


图 3.5 Setiesi& H- 


data = | 
' 张 二 :92 
L| zu | 7E 
D TA 2 
5 ^BH' 82 


obj3 = Series(data) 
ob]3 


小 明 82 
k= 89 
F "8 
ih 68 


dtype: int64d 





图 3.6 ”创建 Series 数 据 3 
由 于 字典 结构 是 无 序 的 ， 因 此 这 里 返回 的 Series 也 是 无 序 的 ， 这 里 依旧 可 以 通过 index 指 定 索引 的 排列 顺序 ， 如 图 3.7 所 示 。 


series 对 象 和 索引 都 有 name 属 性 ， 这 样 我 们 就 可 以 给 series 定义 名 称 ， 让 series 更 具 可 读 性 ， 如 图 3.8 所 示 。 


names = ['9&—^, 'zEDU, ”王石 183] 


objd = Seriesídata, index-names) 
ob34 


= 92 
F 78 
ih 68 
^| BH 22 
dtype: int64d 





图 3.7 创建 Series 数 据 4 


objd.name = “math 


ob jd4. index.name = "students 


ob jd 


students 

二 

zm 

Ih 

^| BR 82 

Name: math, dtype: int64 





图 3.8 name 属性 


3.1.2 ”创建 DataFrame 数 握 
DataFrame 数 据 是 Python 数据 分 析 最 常用 的 数据 ， 无 论 是 创建 的 数据 或 外 部 数据 ， 我 们 首先 想到 的 都 是 如 何 将 其 转换 为 DataFrame 数 据 ， 原 因 是 DataFrame 为 表格 型 数据 。 说 到 表格 型 数据 ， 多 数 人 
想到 的 可 能 是 Excel 表 格 ， 本 章 将 会 把 DataFrame 与 Excel 两 种 数据 进行 对 比 ， 让 读者 可 以 更 加 轻松 地 了 解 和 使 用 DataFrame 数 据 。 


在 Excel 中 ， 在 单元 格 中 输入 数据 即 可 创建 一 张 表 格 。 对 于 DataFrame 数 据 而 言 ， 需 要 用 代码 实现 ， 创 建 DataFrame 数 据 的 办 法 有 很 多 ， 最 常用 的 是 传 入 由 数组 、 列 表 或 元 组 组 成 的 字典 ， 代 码 如 图 3.9 
所 示 。 


import numpy as np 
from pandas import Series,DataFrame 
import pandas as pd 


data = | 
"nav PIKE, ET, ER, AR], 


'sex :[ female, female ， male’, male ], 
'year':[2001, 2001, 2003, 2002], 


"city : PAR, BE, A, Ae] 


j 
df = DataFrame(data) 


df 





图 3.9 ”创建 DataFrame 数 据 1 


返回 的 数据 如 图 3.10 所 示 ，DataFrame 数 据 有 行 索引 和 人 列 索引 ， 行 索引 类 似 于 Excel 表 格 中 每 行 的 编号 (没有 指定 行 索引 的 情况 下 ) ， 列 索引 类 似 于 Excel 表 格 的 列 名 (通常 也 可 称 为 字段 ) 。 


Sex 


female 


female 
male 


male 





图 3.10 ”DataFrame 数 据 


由 于 字典 是 无 序 的 ， 因 此 可 以 通过 columns 指 定 列 索引 的 排列 顺序 ， 如 图 3.11 所 示 。 


df = DataFrame(data, columns-[ name’, ”sex , 'year', 'city ]) 
df 


sex year city 


一 female 2001 北京 


李 四 female 2001 上海 
Tn male 2003 广州 
male 2002 





图 3.11 指定 列 索 引 顺 序 


当 没 有 指定 行 索引 的 情况 下 ， 会 使 用 0 到 N-1 (NN 为 数据 的 长 度 ) 作为 行 索 3 引 ， 这 里 也 可 以 使 用 其 他 数据 作为 行 索引 ， 如 图 3.12 所 示 。 


df = DataFrame(data, columns-[ name’, 'sex', 'year', 'city l,index-[ a, 'b/, cd]) 
df 


Sex 


3k— female 


Æp female 


+A male 
小 明 male 


df. index 


Index([ 2, b,c, 'd], dtype= object) 


df. columns 


Index([ name, ° sex’, 'year', 'city ], dtype™ object) 





图 3.12 ”指定 行 索引 


使 用 符 套 字典 的 数据 也 可 以 创建 DataFrame 数 据 ， 如 图 3.13 所 示 。 


data2 = | 
' sex! i CKS? i female’, 到 四 ”fenmale ,王石 : male}, 


Q Cus PIE HOS ERIS 上海， 于 五 广州 


df2 = DataFrame(data2) 
df2 


city Sex 
路 二 北京 female 
Æ ”上海 female 
于 五 广州 male 





图 3.13 ”创建 DataFrame 数 据 2 


表 3.1 中 提供 了 部 分 常用 的 为 创建 DataFrame 数 据 可 传 入 的 数据 类 型 。 


表 3.1 创建 DataFrame 数 据 可 输入 的 数据 类 型 


类 型 使 用 说 明 


二 维 ndarray 数据 矩阵 ， 可 传 入 行列 索引 

由 数组 、 列 表 或 元 组 组 成 的 字典 | 如 图 3.9 所 示 

由 Series 组 成 的 字典 fff Series —7], Series£& 9| EHF 2911 2 | 

KETI 如 图 3.13 所 示 

字典 或 Series 的 列表 各 项 成 为 DataFrame 一 行 ， 字 典 键 或 Series 索 引 成 为 DataFrame 列 索引 


由 列表 或 元 组 组 成 的 列表 类 似 于 “二 维 数 组 ” 


如 果 df 为 基 班 级 学 生 的 信息 ， 通 过 设置 DataFrame 的 index 和 columns 的 name 属 性 ， 可 以 将 这 些 信息 显示 出 来 ， 如 图 3.14 所 示 。 


df. index. name = id 
df. columns. name = 'std info 


df 


std_info 
id 
| female 
female 


于 五 ”male 


male 





图 3.14 设置 hame 属 性 


通过 values 属 性 可 以 将 DataFrame 数 据 转 换 为 二 维 数 组 ， 如 图 3.15 所 示 。 


df. values 


array ( [L 3H, 'female', 2001, JF], 


LÆ, female’, 2001, bF ], 
CEA’, 'male', 2003, *J JT ], 
['^BBH', male’, 2002, JKR ]], dtype=object) 





图 3.15 ”转换 为 二 维 数组 


AS: 名 列 数据 类 型 不 同 ， 返 回 的 数组 会 兼顾 所 有 数据 类 型 。 


3.3.3 索引 对 象 


series 的 索引 和 DataFrame 的 行 和 列 索引 都 是 索引 对 象 ， 用 于 负责 管理 轴 标 签 和 元 数据 ， 如 图 3.16 所 示 。 


obj. index 


Index([ 2, b,c, 'd], dtype= object 


df. index 


Index([ a, b,c, 'd], dtype= object, name-' id ) 


df. columns 


Index([ name, 'sex', year’, 'city ], dtype-' object, name=’ std info') 





图 3.16 索引 对 象 


索引 对 象 是 不 可 以 进行 修改 的 ， 如 果 修改 就 会 报错 ， 如 图 3.17 所 示 。 


index = obj.index 
index[1] = '£' 


Traceback (most recent call last) 
Gpython-input-14d-4f995da5e969? in ‘nodule> () 


1 index - obj.index 
——J» 2 index[1] = "f' 


F: MànacondaXenvsVdata-analysisVlibXsite-packagesXpandasXcoreXindexesMbase.py in setitem (self, key, value) 
1668 
1669 def —^setitem (self, key, value): 
-> 1670 raise TypeError( Index does not support mutable operations ) 
1671 
1672 def _ getitem (self, key): 


TypeError: Index does not support mutable operations 





图 3.17 索引 对 象 不 可 修改 


索引 对 象 类 似 于 数组 数据 ， 其 功能 也 类 似 于 一 个 固定 大 小 的 集合 ， 如 图 3.18 所 示 。 


df 


std info name sex year city 


id 





a 5k— female 2001 ilf 
b 地 四 female 2001 上海 
C 于 五 male 2003 广州 
d hg male 2002 北京 


'sex in df. columns 


True 


'f' in df. index 


False 


图 3.18 集合 运算 


OEE: 读者 不 需要 了 解 索 引 对 象 的 细节 。 


3.2 ”pandas 索 引 操 作 


本 节 将 针对 Series 和 DataFrame 数 据 ， 讲 解 Series 和 DataFrame 索 引 操 作 的 方法 ， 通 过 将 它们 与 Exce| 数 据 的 类 比 ， 讲 解 DataFrame 数 据 的 选取 与 操作 。 


3.2.1 EESTI 


前 面 说 过 ， 索 引 对 象 是 无 法 进行 修改 的 ， 本 节 所 说 的 重新 索引 并 不 是 给 索引 重新 命名 ， 而 是 对 索引 重新 排序 ， 如 果 某 个 索引 值 不 存在 的 话 ， 就 会 引入 缺失 值 。 首 先 来 看 下 Series 重 新 排序 后 的 索引 ， 如 
图 3.19 所 示 。 


obj = Series([1, -2, 3, -4], index-['b', ': 
ob ] 


dtype: int6d 


Eo £m *4d * e ]) 


0bj2 = obj.reindex([ a, 
bb]< 


ER 
1 
3. ( 

-4 


dtype: float64d 





图 3.19 ”Series 重 新 排序 后 的 索引 


如 果 需 要 对 插入 的 缺失 值 进行 填充 的 话 ， 可 通过 method 参 数 来 实现 ， 参 数值 为 ffill 或 pad 时 为 向 前 填充 ， 参 数值 为 bfill 或 backfill 时 为 向 后 填充 ， 如 图 3.20 所 示 。 


obj = Series([1, -2, 3, -4], index= [0, 2, 3,5]) 


dtype: int64 


obj2 = obj.reindex(rangeí6),method- ffill ) 
ob32 


j =R 
dtype: int64d 





图 3.20 ”填充 缺失 值 


对 于 DataFrame 数 据 来 说 ， 行 和 列 索引 都 是 可 以 重新 索引 的 ， 如 图 3.21 所 示 为 重新 索引 行 。 


9) 3 


df = DataFrame (np. arange(9).reshape(3,3),index-[ a, c," d' ], columns-[ name', id ,’ sex']) 


df2 = df.reindex([ a’, 'b/, 'c', "^q ]) 
df2 


name id 
a 00 10 
b NaN NaN 
C 30 40 
d 60 720 





E321 重新 索引 行 


重新 索引 列 需要 使 用 columns 关 键 字 ， 如 图 3.22 所 示 。 


df3 = df.reindex(columns-[ name, 'year', id ], fill value-0) 
df3 


name year id 


0 0 1 





图 3.22 ”重新 索引 列 


如 表 3.2 所 示 为 reindex 函 数 的 各 参数 使 用 说 明 。 


表 3.2 teindex 函 数 参 数 


类 型 使 用 说 明 
index 用 于 去 引 的 新 序列 
method 填充 缺失 值 方 法 
fill value B REHAB 
limit Ig AR ode 


3.2.2 ERASI 


在 DataFrame 数 据 中 ， 如 果 不 希 望 使 用 默认 行 索引 的 话 ， 可 在 创建 的 时 候 通过 index 参 数 来 设置 行 索引 。 有 时 我 们 希望 将 列 数 据 作 为 行 索 3 引 ， 这 时 可 通过 set_index 方 法 来 实现 ， 如 图 3.23 所 示 。 


与 set_index 方 法 相反 的 方法 是 reset_index 方 法 ， 如 图 3.24 所 示 。 


city name sex year 
0 北京 ” 张 二 female 2007 
1 ri m female 2001 
2 广州 于 五 male 2003 
3 北京 小 明 male 2002 


df2 = df. set index( name") 
df2 


city sex year 
name 
北京 female 2001 
上 海 female 200 
广州 | male 2003 





北京 male 2002 


图 3.23 ”指定 行 索引 


df3 = df2.reset index() 
df3 


city Sex 


ibzm female 


上 这 female 
广州 male 


Pif male 





图 3.24 恢复 索引 


下 面 给 读者 举 一 个 实际 的 例子 。 对 于 Excel 表 格 而 言 ， 排 序 之 后 ， 行 索引 并 不 会 发 生 改 变 (依旧 是 从 1 开始 计数 ) ， 而 对 DataFrame 数 据 ， 排 序 之 后 其 行 索引 会 改变 ， 如 图 3.25 所 示 。 


data = | 
"name :['9&—^, "RU, "Th. ' BB" ], 
'grade':[68, 78, 63, 92] 

| 

df = DataFrame(data) 


df 

grade name 
0 68 张 二 
1 78 $A 
2 63 IH 
3 92 小 明 


df2 = df. sort values(by-' grade’ ) 


grade name 


2 603 Eh 
0 68 zk- 
1 ”78 zm 
3 92 小 明 


Esp: 排序 在 后 面 内 容 中 会 详细 讲解 。 


这 里 要 获取 成 绩 倒 数 两 位 同学 的 数据 的 话 ， 需 要 记 住 其 单独 的 索引 。 但 当 数 据 量 大 的 时 候 ， 想 查看 多 位 排序 过 后 的 数据 时 ， 这 种 做 法 是 很 不 方便 的 。 我 们 可 通过 恢复 索引 ， 对 数据 进行 排序 ， 这 样 操作 
起 来 会 方便 很 多 ， 如 图 3.26 所 示 。 


原 索 引 可 通过 drop 参 数 进行 删除 ， 如 图 3.27 所 示 。 


df3 = df2.reset_index () 


df 3 


index grade 


53 


58 





图 3.26 ŽE, EH: 


dfd = df2,.reset index (drop=True) 
df4 





grade name 


53 





图 3.27 MAAKE 


3.2.3 Z5 RUBER 


在 数据 分 析 中 ， 选 取 需 要 的 数据 进行 处 理 和 分 析 是 很 重要 的 。 在 Excel 表 格 中 ， 通 过 鼠标 点 选 或 扩 选 可 以 轻松 地 选取 数据 ， 而 在 pandas 数 据 中 ， 需 要 通过 索引 来 完成 数据 的 选取 工作 ，。 


Series 数 据 的 选取 较为 简单 ， 使 用 方法 类 似 于 Python 的 列表 ， 这 里 不 仅 可 以 通过 0 到 N-1 (NN 是 数据 长 度 ) 来 进行 索引 ， 同 时 也 可 以 通过 设置 好 的 索引 标签 来 进行 索引 ， 如 图 3.28 所 示 。 


obj = Series([1, -2, 3, -4], index-[ a, b,c 


obj 


dtype: int64 


obj [1] 


dtype: int64d 





图 3.28 Series% 5| 


切片 运算 与 Python 列表 略 有 不 同 ， 如 果 是 利用 索引 标签 切片 ， 其 尾 端 是 被 包含 的 ， 如 图 3.29 所 示 。 


obj [0:2] 


a 1l 
b A 
dtype: int64d 


obji[ a :* 


a 1 
D: 2i 
C x 
dtype: int64d 





图 3.29 Series} A 
DataFrame 数 据 的 选取 更 复杂 些 ， 因 为 它 是 二 维 数组 ， 选 取 列 和 行 都 有 具体 的 使 用 方法 。 接 下 来 将 重点 介绍 DataFrame 数 据 的 选取 。 
1. 选取 列 
通过 列 索引 标签 或 以 属性 的 方式 可 以 单独 获取 DataFrame 的 列 数据 ， 返 回 的 数据 为 Series 结 构 ， 如 图 3.30 所 示 。 


通过 两 个 中 括号 ， 可 以 获取 多 个 列 的 数据 ， 如 图 3.31 所 示 。 


city name 
0 北京 KZ 
1 rS xp 


2 jM ER 


J 北京 J 


dfl city ] 


Sex 
female 
female 

male 


male 


year 
2001 
2001 
2003 


2002 


Name: city, dtvpe: object 


0 ”北京 
1 DA 
2 p 
3 ”北京 
df.name 

0 KZ 
1 ÆW 
2 — EH 
3 -DBH 


Name: name, dtype: object 


图 3.30 ”选取 单独 列 


d£ [[: city" ,' sex’ 1] 


female 
female 
male 


male 





E] 3.31 选取 多 列 
OFE: 选取 列 不 能 使 用 切片 ， 因 为 切片 用 于 选取 行 数 据 。 
2， 选 取 行 


通过 行 索 引 标 签 或 行 索 引 位 置 (0 到 N-1) 的 切片 形式 可 选取 DataFrame 的 行 数据 ， 如 图 3.32 和 图 3.33 所 示 。 


df2 = df.set index( name’ ) 


dt2 


city 


北京 
Lis 
广州 


itm 


AUm 


Ls 


Sex 


female 
female 
male 


male 


Sex 


female 


female 


year 


2001 
2001 
2003 


2002 


year 


d£2[ ZEDU' :' ER] 


city sex X year 

name 
李 四 上 海 female 2001 
Xh 广州 male 2003 





图 3.33 ”选取 行 2 


显然 ， 切 片 方法 选取 行 有 很 大 的 局 限 性 ，。 如 果 想 获取 单独 的 几 行 ， 通 过 loc 和 iloc 方 法 可 以 实现 。loc 方 法 是 按 行 索引 标签 选取 数据 ， 如 图 3.34 所 示 ; iloc 方 法 是 按 行 索引 位 置 选取 数据 ， 如 图 3.35 所 示 。 





df2. loc[' 39K —' ] 


city 北京 

sex female 

year 2001 

Name: 5K—, dtype: object 


df2. loc[[ 58K —" ER ]] 


city sex year 
name 
k= 北京 female 2001 
天 五 广州 male 2003 


图 3.34 ”通过 loc 方 法 选取 行 


df2. iloc[1i] 


city 上 海 


Sex female 
year 2001 
Name: zr. dtype: object 


df2. iloc[[1, 3]] 


City sex year 
name 
小 明 ib male 2002 


图 3.35 ”通过 iloc 方 法 选取 行 


3. 选取 行 和 列 
在 数据 分 析 中 ， 有 时 可 能 只 是 对 部 分 行 和 列 进行 操作 ， 这 时 就 需要 选取 DataFrame 数 据 中 行 和 列 的 子 集 ， 而 通过 ix 方法 就 可 以 轻松 地 完成 。jx 方 法 同时 支持 索引 标签 和 索引 位 置 来 进行 数据 的 选取 ， 如 
图 3.36 所 示 。 


其 实 ，ix 方 法 除了 可 以 选取 部 分 行 和 列 外 ， 也 可 以 选取 单独 的 行 或 者 列 ， 如 图 3.37 所 示 。 


df2.ix[['9k— ， 于 力 1,0:2] 


city sex 
name 
” 张 = 北京 female 
于 五 广州 ”male 





df2. ix L5, [ sex 3 ^ year’ ]] i 





Ir 


Sex year 


k= female 2001 
f] female 2001 
h male 2003 
小 明 male 2002 


df2.ix[[1,3],:] 4/7 


city sex year 


name 








+m 上 海 female 2001 
小 明 北京 male 2002 
图 3.37 “通过 ix 获取 单独 的 行 和 列 
4. 布尔 选择 


以 df 2 为 例 ， 筛 选 出 性 别 为 female 的 数据 ， 这 时 就 需要 通过 布尔 选择 来 完成 ， 如 图 3.38 所 示 。 


与 数组 布尔 型 索引 类 似 ， 既 然 可 以 使 用 布尔 选择 ， 那 么 同样 也 适用 于 不 等 于 符号 (! =), AS C). 、 和 (&) 、 或 (D ， 如 图 3.39 所 示 。 


df2[ sex ] == 'female' 


name 
gie — True 
zx py True 


EA False 
^| BH False 
Name: sex, dtype: bool 


df2[df2[ sex ] == female’ ] 


City sex year 
name 
k= 北京 female 2001 
李 四 ”上海 female 2001 


df2[ (df2[’ sex’] == female’) & (df2[ city ] == 北京”)] 


city sex year 


name 


张 三 北京 female 2001 





图 3.39 布尔 选择 2 


3.2.4 ”操作 行 和 列 
在 数据 分 析 中 ， 常 用 的 基本 操作 为 “ 增 、 删 、 改 、 查 ”， 查 (选取 ) 在 前 面 内 容 中 已 经 详细 讲解 过 ， 本 节 主 要 讲解 其 余 的 3 个 操作 。 


1. 增加 


以 df 数据 为 例 ， 该 班级 转 来 了 一 个 新 生 ， 需 要 在 原 有 数据 的 基础 上 增加 一 行 数据 。 可 以 通过 append 函 数 传 入 字典 结构 数据 即 可 ， 如 图 3.40 所 示 。 


new data = | 
3 : 3 532]:^T]3 
city :’ £V, 
3 3 5 -g 
name? 1? -p , 
3 3, 3 ^ 
sex : male, 


"year :2002 


tra 四 


df = df.appendínew data,ignore index-True) ZEF 5/18 
df 


name Sex 
5k— female 
李 四 female 
male 

male 


male 





图 3.40 “新 增 行 
这 些 学 生 都 是 2018 级 的 ， 这 里 我 们 新 建 一 列 用 于 存放 该 信息 。 为 一 个 不 存在 的 列 赋值 ， 即 可 创建 一 个 新 列 ， 如 图 3.41 所 示 。 


如 果 要 新 增 的 列 中 的 数值 不 一 样 时 ， 可 以 传 入 列表 或 数组 结构 数据 进行 赋值 ， 如 图 3.42 所 示 。 


df[ class ] = 2018 
df 
Sex 
female 
female 
male 
male 


male 


df[ math'] = [92, 78, 58, 69,82] 
df 


Sex 
female 
female 

male 
male 


male 


class 


2018 
2018 
2018 
2018 
2018 


math 
02 
78 





2. 删除 


如 果 王 五 同学 转学 了 ，class 字 段 没有 用 了 ， 就 需要 删除 其 信息 。 


new df = df. drop (2) 


new df 
city name 
0 北京  sK— 


new df = new df.drop( class’ , axis-1) 


xm 
小 明 
r| x 


new df 

city name 
0 北京 张 三 
1 He sm 
3 北京 ”小明 
4 武汉 小 地 


3. 修改 


这 里 的 “ 改 ” 指 的 是 行 和 列 索引 标签 的 修改 ， 通 过 rename 函 数 ， 可 完成 由 于 某 些 原因 导致 的 标签 录入 错误 的 问题 ， 如 图 3.44 所 示 。 


Sex 


female 


female 


male 


male 


Sex 


female 


female 


male 


male 


year math 
2001 92 
2001 78 
2002 69 
2002 82 


图 3.43 ”删除 行 和 列 


通过 drop 方 法 可 以 删除 指定 轴 上 的 信息 ， 如 图 3.43 所 示 。 


ERER IT 
year class math 
2001 2018 92 
2001 2018 78 
2002 2018 69 
2002 2018 82 


new df.rename(index-|3:2,4:3], columns-[ math':'Math'],inplace-True) #inplace 3AA 


new df 


sex year Math 

female 2001 92 
female 2001 
male 2002 


male 2002 





图 3.44 ”修改 标签 名 


3.3 ”pandas 数 据 运 算 


本 节 将 针对 Series 和 DataFrame 数 据 ， 详 细 讲 解 二 者 的 算术 运行 和 函数 的 应 用 ， 这 在 数据 分 析 中 会 经 常 使 用 ， 读 者 需要 认真 学 习 。 


3.3.1 算术 运算 


pandas 的 数据 对 象 在 进行 算术 运算 时 ， 如 果 有 相同 索引 对 则 进行 算术 运算 ， 如 果 没 有 则 会 引入 缺失 值 ， 这 就 是 数据 对 齐 。 下 面 通过 图 3.45 来 看 看 Series 数 据 的 算术 运算 。 


Series([3.2,5.3,—4.4, 73. 7], indexz[' à ,' c," g," £' ]) 


LT 
dtype: float64d 


obj2 = Seriesí([5.0,-2,4.4, 3. 4], index-[ a, b, c," d ]) 


dtype: float64d 


objl + ob]z 


a 8.2 
b NaN 
C 9. 7 
d NaN 
f NaN 
g NaN 
dtype: float64 





图 3.45 Seties 数 据 运算 


对 于 DataFrame 数 据 而 言 ， 对 齐 操作 会 同时 发 生 在 行 和 列 上 ， 如 图 3.46 所 示 。 


F 3 F 


dfi = DataFrame np. arange (9). reshape (3, 引 ,colummns=[ a , b, ce], index-[ apple’, tea', banana ]) 
df1 


apple 
tea 


banana 


p 


df? = DataFrame (np. arange (9). reshape (3, 3), columns-[ a , b 
df2 


,d], index-[ apple',' tea , coco ]? 





图 3.46 ”DataFrame 数 据 运算 


DataFrame 和 Series 数 据 在 进行 运算 时 ， 先 通过 Series 的 索引 匹配 到 相应 的 DataFrame 列 索引 上 ， 然 后 沿 行 向 下 运算 (广播 ) ， 如 图 3.47 所 示 。 


dt l 


apple 


tea 


T 
an 


banana 


s = dfi.ix[ apple’ ] 
s 


a I 
b l 
C 2 
Name: apple, dtype: int32 


dtl — s 


apple 0 
d 


tea 


C 


C 


banana 


图 3.47 Series 与 DataFrame 运 算 


3.3.2 ”函数 应 用 和 了 映射 


在 数据 分 析 时 ， 常 常会 对 数据 进行 较 复杂 的 数据 运算 ， 这 时 需要 定义 函数 。 定 义 好 的 函数 可 以 应 用 到 pandas 数 据 中 ， 其 中 有 三 种 方法 : map 函数 ， 将 函数 套用 在 Series 的 每 个 元 素 中 ; apply 函 数 ， 将 
函数 套用 到 DataFrame 的 行 与 列 上 ; applymapeRZi, Teese FBsllDataFramefS& T 7x E, 


如 图 3.48 所 示 ， 需 要 把 price 列 的 “元 ” 字 去 掉 ， 这 时 就 需要 用 到 map 水 数 ， 使 用 方法 如 图 3.49 所 示 。 


data = { 
fruit :[ apple, orange, grape, banana ], 
price :[ 200p , "4200, m, dr 1 


n - DataFrame (data) 
d£l 
fruit 
apple 
orange 
grape 


banana 





图 3.48 ”数据 


def f(x): 

return x. split( 717, ) [0] 
dfll price] = dfi1l price'].map(f) 
dti 


fruit price 
apple 25 


orange 42 


grape 35 


banana 14 





图 3.49 14% Jf map žk 


apply 函 数 的 使 用 方法 如 图 3.50 所 示 。 


df2 = DataFrame (np.random.randn(3, 3), columns-[ a,” b 


df2 


a b C 


app 1.507962 -2.140018 0.053571 


win 0.729671 0.207060 0.397773 


mac -0.191497 -0.765726 -0.266327 


f = lambda x:x.max () x. nin() 
df2. apply f: 


a 1.699460 
b 2. 347079 
C 0. 664100 
dtype: float64d 


3 


, c ], index-[ app’, win," mac? ]) 





图 3.50 使 用 apply 函 数 


Ata: lambda 为 匿名 函数 ， 和 定义 好 的 函数 一 样 ， 可 以 节省 代码 量 。 


applymap 函 数 可 作用 于 每 个 元 素 ， 便 于 对 整个 DataFrame 数 据 进 行 批量 处 理 ， 如 图 3.51 所 示 。 


a b 
1.507962 -2.140018 


0.729671 


app 
win 0.207060 


mac -0.191497 -0.765726 


C 
0.053571 
0.397773 

-0.266327 


df2. applymap (lambda x:°%. 2f %x) 





图 3.51 4% M applymap rf žk 


3.3.3 HEF 


{ESeries}, Witsort_indexR A R5 ATHE, SAATSZRZJA FR, BUÉ3.52BTzn. 


obj 1 = Series ( [52 ds ds ii; indez- [ H : 3 3 
obj31 


b 
a 
d 
C 


dtype: int64d 


dtype: int64d 


objl.sort index(ascending-False) 


dtype: int6d 





图 3.52 Seties 索 引 排 序 


通过 sort values 方 法 可 对 值 进 行 排序 ， 如 图 3.53 所 示 。 


对 于 DataFrame 数 据 而 言 ， 通 过 指定 轴 方 向 ， 使 用 sort_index 函 数 可 对 行 或 者 列 索引 进行 排序 ， 这 里 不 多 做 示例 了 。 要 根据 列 进行 排序 ， 可 以 通过 sort_values 国 数 ， 把 列 名 传 给 by 参数 即 可 ， 如 图 3.54 
所 示 。 


objl. sort Yalues | 


dtype: lint6d 





dtz 


a b C 

app 1.507962 -2.140018 0.053571 
win 0.729671 0.207060 0.397773 
mac -0.191497 -D./65/26 -0.266327 


df2.sort values|by- b') 


a b C 

app 1.507962 -2.140018 0.053573 
mac -0.191497 -0.765726 -0.206327 
win 0.729671 0.207060 0.397773 


图 3.54 ”DataFrame 列 排序 


3.3.4 ”汇总 与 统计 


在 DataFrame 数 据 中 ， 通 过 sum 函 数 可 以 对 每 列 进行 求 和 汇总 ， 与 Excel 中 的 Sum 函数 类 似 ， 如 图 3.55 所 示 。 


本 


df = DataFrame(np.random.randn(8).reshape(3,3),columnsz-[ a ,b,c ]) 
df 


a b C 


0 0.660215 -1.137716 -0.302954 


1 1.496589 -0.768645 -2.091506 
2 0.170316 -2.682284 -0.041099 


df. sumi) 


a 2. 321120 
b  -4.588645 
c | 2.435558 
dtype: float64d 





图 3.55” 按 列 汇总 
指定 轴 方 向 ， 通 过 sum 函 数 可 按 行 汇 总 ， 如 图 3.56 所 示 。 


describe 方 法 可 对 每 个 数值 型 列 进行 统计 ， 经 常用 于 对 数据 的 初步 观察 时 使 用 ， 如 图 3.57 所 示 。 


df. sumlaxis-1) 


O -0.780455 


E ARSA 
à | -2.553061 
dtype: float64d 





city 
0 ipm 


1 上 海 


2 广州 
3 北京 


math name 


df. describe. 


count 
mean 
std 
min 
25% 
50% 
T5% 


max 


3.3.5 ”唯一 值 和 值 计数 


math 
4.000000 
83.000000 
6.377042 
78.000000 
78.750000 
81.000000 
85.250000 
92.000000 


小 明 


Sex 


female 


female 


male 


male 


在 Series 中 ， 通 过 unique 函 数 可 以 获取 不 重复 的 数组 ， 如 图 3.58 所 示 。 


通过 values_counts 方 法 可 统计 每 个 值 出 现 的 次 数 ， 如 图 3.59 所 示 。 


obj = Sexies(l a, b, a, c, b JJ 


ob] 


b 
dtype: object 


obj. unique () 


3 


arrav([ a, b, "c |, dtype-object) 


obj. value counts (Í) 


7! 
à 
1 
dtype: int64d 





43.59 值 计 数 


Cua : 4} DataFramef] 7] m $ , unique ZCfevalues counts Z 3k EFFE, 3X Y S BA] e 


34 ”层次 化 索引 


层 出 化 索引 是 pandas 重 要 的 功能 之 一 ， 本 节 将 简单 讲解 层次 化 索引 的 创建 过 程 和 使 用 方法 。 


3.4.1 ”层次 化 索引 简介 


简单 地 说 ， 层 出 化 索引 就 是 轴 上 有 多 个 级 别 索 引 ， 如 图 3.60 所 示 为 创建 一 个 层次 化 索引 的 series 对 象 。 


= Seriesínp.random. randn (9), 
index- [[ one',' one,” one,” two ," two," two," three," three’, three], 
320-58 — 4c —A X Wa A 4297739 3 a 
[ a, b,c,a,b,c, Er 5,6411 


0. 697195 

-0. 887408 
0. 451851 
0. 390779 
-2. 058070 
0. 760594 
-0. 305534 
-0. 720491 
-0. 259225 
float64d 


0:0 9 0G A 0 O9 





图 3.60 Seties 层 次 化 索引 
该 索引 对 象 为 Multilndex 对 象 ， 如 图 3.61 所 示 。 


层次 化 索引 的 对 象 ， 索 引 和 选取 操作 都 很 简单 ， 如 图 3.62 所 示 。 


obj. index 


Multilndex(levels-[[' one", 'three', ° two], men |] 
labels=[[0, 0, 0, 2, 2, 2, 1, 1, Lom. Dod. UU 0,5 RID 





图 3.61  Multilndexs] £ 


obj[ two] 


a 0. 390779 
b -2.058070 
C O. 760594 
dtype: float64d 


0. 380 T T2 
three -0. 305534 
dtype: float64d 





图 3.62 ”数据 选取 


对 于 DataFrame 数 据 而 言 ， 行 和 列 索引 都 可 以 为 层次 化 索引 ， 如 图 3.63 所 示 。 选 取 数 据 也 很 简单 ， 如 图 3.64 所 示 。 


df = DataFrame (np. arange (16). reshape (4, 4), 
index- [['one',' one" ,’ two,’ 
columns-[[' apple,” apple',' orange',' orange ], [ red'," green,’ red,’ green' ]]) 


apple orange 


red green red green 





图 3.63 ”DataFrame 层 次 化 索引 


dfl apple’ | 





图 3.64 ”数据 选取 


34.2 ” 重 排 分 级 顺序 


通过 swapleve 人 方法 可 以 对 层次 化 索引 进行 重 排 ， 如 图 3.65 所 示 。 


df. swaplevel (0, 1) 


apple orange 
red green red green 
0 | 2 3 
5 7 
10 





图 3.65” 重 排 分 级 顺序 


34.3 汇总 统计 


在 对 层次 化 索引 的 pandas 数 据 进行 汇总 统计 时 ， 可 以 通过 level 参 数 指定 在 某 层次 上 进行 汇总 统计 ， 如 图 3.66 所 示 。 


df. sum (1evel-0) 


apple orange 

red green red green 
one 4 5 8 10 
two 20 22 24 26 


df. sum (level-1, axis-1) 


green red 

one a 4 2 
b 12 10 

two a 20 18 
b 28 20 


图 3.66 ”根据 级 别 汇总 统计 


QIS: 层次 化 索引 的 用 途 在 后 面 会 详细 讲解 。 


3.5 pandas 可 仙 化 


pandas 库 中 集成 了 matplotlib 中 的 基础 组 件 ， 让 绘图 更 加 简单 。 本 节 将 讲解 如 何 利 用 pandas 绘 制 基 本 图 形 。 


3.5.1 ”线形 图 


线形 图 通常 用 于 摘 绘 两 组 数据 之 间 的 趋势 。 例 如 ， 销 售 行 中 月 份 与 销售 量 之 间 的 趋势 情况 ; 金融 行 中 股票 收盘 价 与 时 间 序列 之 间 的 走势 。 


pandas 库 中 的 Series 和 DataFrame 中 都 有 绘制 各 类 图 表 的 plot 方 法 ， 上 默认 情况 绘制 的 是 线形 图 。 下 面 首先 创建 一 个 Series 对 象 ， 如 图 3.67 所 示 。 


import numpy as np 

from pandas import Series,DataFrame 

import pandas as pd 

import matplotlib as mpl 

import matplotlib.pyplot as plt f£ Àmxastplotiib/£ 
Ymatplotlib inline E EY 


Series np. random. normal(ísize-10)) 


U M 


-0. 468142 
-1. 408927 
, 182548 
. 043023 
. 121437 
. 538194 
, 011423 
. 938207 
, 589460 
. 4601593 
: float6d 


Q 
1 
à 
J 
4 
9 
6 
T 
8 
g9 


dtype 





图 3.67 ”Series 数 据 
Com: '/omatplotlib inline 为 魔法 函数 ， 使 用 该 函数 绘制 的 图 片 会 直接 显示 在 Notebook 中 。 


通过 s.plot 方 法 可 以 绘制 线形 图 ， 如 图 3.68 所 示 。 从 图 中 可 以 看 出 ，series 的 索引 作为 X 轴 ， 值 为 Y 轴 。 


s. plot() 


&matplotlib. axes. subplots.AxesSubplot at Oxafc5390» 





图 3.68 Seties 的 线形 图 


通过 DataFrame 数 据 的 plot 方 法 可 以 为 各 列 绘制 一 条 线 ， 并 会 给 其 创建 好 图 例 。 首 先 创 建 DataFrame 数 据 ， 如 图 3.69 所 示 。 


df = DataFrame([| normal': np.random.normal(ísize-100), 

'gamma : np.random.gamma(l, size-100), 

` poisson’ : np.random.poisson(size-100)]) 
df. cumsum | | 


gamma normal poisson 


1.804045 . 1.788000 0.0 


1.835715 . 0.089426 0.0 
3.850210 — 0.870177 
6.082898 . 0.902761 
8.837446 0.959945 





9.307126 A 1.658268 


图 3.69  DataFrame Z4 
绘制 的 图 如 图 3.70 所 示 。 


Oum : 关于 pandas 绘 图 的 参数 ， 会 在 实际 案例 中 具体 介绍 。 


—— gamma 
normal 
— poisson 





图 3.70 ”DataFrame 的 线形 图 


3.5.2 ”柱状 图 
柱状 图 常 描绘 各 类 别 之 间 的 关系 。 例 如 ， 班 级 中 男生 和 女生 的 分 布 情况 ， 某 零售 店 各 商品 的 购买 数量 分 布 情况 。 通 过 pandas 绘 制 柱状 图 很 简单 ， 只 需要 在 plot 函 数 中 加 入 kind= “bar ， 如 果 类 别 较 
多 ， 可 绘制 水 平 柱状 图 (kind= ‘barh”) 。 


首先 ， 创 建 一 个 DataFrame 数 据 的 学 生 信 息 表 格 ， 如 果 需 要 分 析 班 级 的 男女 比例 是 否 平衡 ， 这 时 就 可 以 使 用 柱状 图 ， 通 过 value_counts 计 数 ， 获 取 男 女 计数 的 series 数据 ， 进 而 绘制 柱状 图 ， 如 图 3.71 
和 图 3.72 所 示 。 


data = | 
'name' :['8K — , FEN, * FR, 小 BH "Peter ], 
'sex :[ female, 'female', 'male', 'male','male'], 
'year':[2001, 2001, 2003, 2002, 2002], 


'city PIR, "ER, "IBI, IER, AOI] 


df = DataFrame(data) 
df 
city name sex year 


0 北京 ” 张 二 female 2001 
1 上 海 ” 李 四 female 2001 
2 广州 ÆA male 2003 
3 北京 小 明 male 2002 
4 北京 Peter male 2002 


df [ sex'].walue counts () 


male J 
female 2 
Name: sex, dtype: int64d 


图 3.71 男女 计数 


d£[' sex” ]. value. counts (].plot(kind- bar’ | 


&matplotlib. axes. subplots. ixesSubplot at OxaflacbO^ 
3.0 

2 

2.0 

1.5 

1.0 

0.5. 


0.0 
female 





图 3.72 ”班级 学 生性 别 分 布 情 况 
对 于 DataFrame 数 据 而 言 ， 每 一 行 的 值 会 成 为 一 组 ， 如 图 3.73 和 图 3.74 所 示 。 


AH: 可 视 化 效果 会 用 不 同 的 颜色 来 代表 不 同 的 类 ， 鉴 于 本 书 是 黑白 印刷 ， 读 者 可 用 代码 实践 一 下 ， 观 察 实际 的 图 片 效 果 。 后 面 类 似 问 题 不 再 说 明 。 


df2 = DataFrame (np.random.randint(O, 100, size= (3, 3)), 
index=( one',' two ,' three), 
columns = LAL BE, C ]) 

df2 


A B C 


one 29 5 88 


two 35 42 43 
three 87 85 76 





图 3.73 ”DataFrame 数 据 


df2.plot(kind- barh’ ) 


&matplotlib. axes. subplots. ÀxesSubplot at Oxb5b53c8»5 





图 3.74 ”DataFrame 数 据 的 柱状 图 


设置 plot 国 数 的 stacked 参 数 ， 可 以 绘制 堆积 柱状 图 ， 如 图 3.75 所 示 。 


df2. plot(kind-' barh’ , stacked=True, alpha=0. 5) 


<matplotlib. axes. subplots. ixesSubplot at Oxd576cf8»^ 





图 3.75 ”堆积 柱状 图 


人 说 明 : plor dé palpha ACT XR E: UE 


35.3 ”直方 图 和 密度 图 

直方 图 用 于 频率 分 布 ，y 轴 可 为 数值 或 者 比率 。 直 方 图 在 统计 分 析 中 是 经 常 使 用 的 ， 绘 制 数据 的 直方 图 ， 可 以 看 出 其 大 概 分 布 规律 。 例 如 ， 某 班级 的 身高 情况 一 般 是 服从 正 态 分 布 ， 即 高 个 子 和 矮 个 子 的 
人 较 少 ， 大 部 分 都 是 在 平均 身高 左右 。 

可 以 通过 hist 方 法 绘制 直方 图 ， 如 图 3.76 所 示 。 

公 注 意 : 通过 设置 gid 参数 可 在 图 表 中 添加 网 格 ; bins 参 数 是 将 值 分 为 多 少 段 ， 默 认为 10。 


核 密度 估计 (Kernel Density Estimate, KDE) 是 对 真实 密度 的 估计 ， 其 过 程 是 将 数据 的 分 布 近似 为 一 组 核 (如 正 态 分 布 ) 。 通 过 plot 函 数 的 kind=”kde” 可 进行 绘制 ， 如 图 3.77 所 示 。 


s = Serieslnp.random.normal(size-100)) 
s. hist(bins-20, grid-False) 


&matplotlib. axes. subplots. ÀxesSubplot at OxcfOfb5cO» 





图 3.76 ”直方 图 


s. plotíkind-' kde') 


&matplotlib. axes. subplots. ÀxesSubplot at Oxd266710»^ 





图 3.77 ”密度 图 


3.5.4 BARE 


散 点 图 主要 用 来 表现 数据 之 间 的 规律 。 例 如 ， 身 高 和 体重 之 间 的 规律 。 下 面 创建 一 个 DataFrame 数 据 ， 然 后 绘制 散 点 图 ， 如 图 3.78 和 图 3.79 所 示 。 


df3 = DataFrame (np. arange (10), columns-[ X']) 
df3UvY]22*afS['XY] *5 
df3 


- 0 





2 
3 
4 
5 
6 
7 
8 
E 


图 3.78 ”数据 


df3.plot(kind- scatter ,x= X ,y= Y) 


<matplotlib. axes. subplots. AxesSubplot at Üxblf8B8dO^ 


22.5 
20.0 
17.5 
^ 15.0 
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图 3.79” 散 点 图 


3.6 AnI aE 





本 节 主 要 讲解 数据 分 析 的 基本 流程 ， 对 小 费 数 据 集 进行 数据 的 分 析 与 可 视 化 。 


3.6.1 ”数据 分 析 流 程 
数据 分 析 的 流程 通常 情况 下 分 为 5 步 。 
(1) 收集 数据 。 在 这 一 步 中 ， 需 要 对 收集 的 数据 有 一 定 的 认 知 ， 对 各 字段 的 含义 和 背景 知识 都 要 有 着 足够 的 理解 。 
(2) 定义 问题 。 根 据 各 自 的 行业 和 业务 知识 ， 对 数据 定义 多 个 待 解决 的 问题 。 
(3) 数据 清洗 与 整理 。 由 于 各 种 问题 ， 获 取 的 数据 不 够 “干净 ”， 需 通过 各 种 手段 对 数据 进行 清洗 与 整理 ， 以 便 得 到 准确 的 分 析 结 果 。 
(4) 数据 探索 。 通 过 可 视 化 等 手段 ， 对 数据 进行 分 析 和 探索 ， 得 出 结论 。 
(5) 数据 展示 。 这 部 分 用 于 输出 ， 或 撰写 数据 分 析 报 告 、 或 汇报 给 上 级 、 或 绘制 PPT。 


以 上 只 是 基本 的 数据 分 析 流 程 ， 根 据 实 际 情况 会 略 有 不 同 。 例 如 ， 在 实际 工作 中 ， 第 (1) 步 和 第 (2) 步 可 能 会 顺序 颠倒 ,首先 需要 明确 目标 ， 然 后 再 根据 目标 收集 数据 ;， 在 数据 探索 方面 ， 也 会 使 用 
数据 挖掘 等 技术 实现 更 具 复 杂 和 有 实际 操作 意义 的 模型 。 但 本 书 中 的 数据 分 析 案例 是 按照 以 上 的 流程 进行 讲解 (不 讲解 第 (5) 步 ) 。 


3.6.2 ”数据 来 源 


小 费 数 据 集 来 源 于 Python 第 三 方 库 seaborn (用 于 绘图 ) 中 自 带 的 数据 ， 加 载 该 数据 集 ， 如 图 3.80 所 示 。 


import numpy as np 

from pandas import S5eries,DataFrame 
import pandas as pd 

import seaborn as sns EG A eaborn/£ 


tips-sns.load dataset( tips’) 
tips. head() 


total bill — tip sex smoker da time size 
16.99 1.01 Female No Sun Dinner 
10.34 1.66 Male No Sun Dinner 
21.01 3.50 Male No Sun Dinner 
2368 3.31 Male No Sun Dinner 
24.59 361 Female No Sun Dinner 





图 3.80 ”小费 数据 集 
Ats: head 函 数 会 返回 前 5 条 数据 ， 也 可 指定 返回 数据 行 数 。 


众所周知 ， 在 西方 国家 的 服务 行业 中 ， 顾 客 会 给 予 服务 员 一 定金 额 的 小 费 。 该 小 费 数据 为 餐饮 行业 收集 的 数据 。total_bil 列 为 消费 总 金额 ; tip 列 为 小 费 金额 ; sex 列 为 顾客 性 别 ，smoker 列 为 顾客 是 否 
抽烟 ; day 列 为 消费 的 星期 ; time 列 为 聚餐 的 时 间 段 ; size 列 为 聚餐 人 数 。 


3.63 ”定义 问题 


本 次 分 析 中 ， 围 绕 小 费 数据 集 提出 几 个 问题 : 小 费 金额 与 消费 总 金额 是 否 人 存在 相关 性 ”性 别 、 是 否 吸烟 、 星 期 几 、 中 /上 晚餐、 聚餐 人 数 和 小 费 金 额 是 否 有 一 定 的 关联 ”小 费 金额 占 消费 总 金额 的 百分比 服 
从 正 态 分 布 ? 


3.6.4 ”数据 清 先 


首先 对 数据 进行 简单 摘 述 ， 看 是 否 有 缺失 值 或 者 异常 值 ， 如 图 3.81 所 示 。 


tips. shape 


(244, 7) 
tips. describe () 


total bill tip size 


count 244.000000 244.000000 244.000000 


mean 19.785943 2.998279 2.569672 
std 8.902412 1.383638 0.951100 
min 3.070000 1.000000 1.000000 

25% 13.347500 2.000000 2.000000 
50% 17.795000 2.900000 2.000000 
T5% 24.127500 3.562500 3.000000 
max 50.810000 — 10.000000 5.000000 





图 3.81 描述 统计 
通过 结果 可 以 看 出 ， 总 共有 244 条 数据 ， 通 过 统计 暂时 看 不 出 是 否 有 缺失 值 。 通 过 打印 数据 的 info 信 息 可 以 看 出 每 列 数据 的 类 型 和 缺失 值 ， 本 例 中 的 小 费 数据 集 没 有 缺失 值 ， 如 图 3.82 所 示 。 


Ou 本 例 数 据 非 常 “干净 ” ， 数 据 清洗 的 内 容 将 在 后 面 内 容 中 详细 讲解 。 


tips. info() 


<class `° pandas. core.frame.DataFrame'? 
RangeIndex: 244 entries, O to 243 
Data columns (total 7 columns): 

total bill 244 non-null float64d 
tip 2dd non-null float64 
sex 24d non-null category 
smoker 244 non-null category 
day 2dd non-null category 
time 2dd non-null category 
size 2dd non-null int64d 
dtypes: categoryld), float64(2), int64(1) 
memory usage: 17.2 KD 





图 3.82 ”查看 缺失 值 


3.6.5 ”数据 探索 


首先 对 小 费 金 额 与 消费 总 金额 进行 分 析 ， 看 看 它们 之 间 是 否 有 关联 ， 通 过 下 面 代 码 绘 制 散 点 图 ， 如 图 3.83 所 示 。 





tips.plot(kind-'scatter',x-'total bill',y="'tip') 


30 
tatal bill 





图 3.83 小费 金额 与 消费 总 金额 散 点 图 
通过 图 3.83 可 以 看 出 ， 小 费 金 额 与 消费 总 金额 存在 着 正 相关 的 关系 ， 即 消费 的 金额 越 多 ， 给 的 小 费 也 就 越 多 ， 这 是 比较 合理 的 。 
我 们 再 来 看 看 性 别 不 一 样 是 否 会 影响 小 费 的 金额 。 这 里 使 用 柱状 图 ， 通 过 布尔 选择 男女 性 别 ， 对 小 费 数据 进行 平均 后 绘制 柱状 图 ， 具 体操 作 如 图 3.84 所 示 。 
柱状 图 如 图 3.85 所 示 ， 女 性 小 费 金额 少 于 男性 小 费 金额 。 


OFE: 这 种 通过 类 别 汇总 的 方法 比较 麻烦 ， 下 面 讲 解 的 groupby 方 法 会 简单 许多 。 


male tip = tips[tips[ sex ] ==“Jale ] [* tip’ ].mean 
male tip 


3. 0896178343949052 
female tip = tips[tips[ sex’ ] == 'Female'][U tip]. mean ({} 
female tip 


2. 833448275862069 


s = Series([male tip,female tipl,index-[ male” ,’ female’ ]) 
s 

male 3g. 089618 

female 2. 833448 

dtype: float6d 


s.plotí(kind- bar’ ) 





图 3.84 男女 平均 小 费 金 额 


female 





图 3.85 “男女 平均 小 费 柱状 图 


其 他 字段 与 小 费 的 关系 也 是 类 似 的 方法 。 例 如 ， 日 期 与 小 费 的 关系 ， 由 于 观察 数据 时 只 看 到 了 前 5 行 数据 ， 通 过 unique 函 数 看 下 日 期 的 唯一 值 有 哪些 ， 如 图 3.86 所 示 。 
日 期 平均 小 费 柱状 图 如 图 3.87 所 示 ， 周 六 、 周 日 的 小 费 比 周 四 、 周 五 的 小 费 高 。 


最 后 我 们 一 起 来 分 析 一 下 小 费 百分比 的 分 布 情况 ， 这 里 的 消费 总 金额 为 小 费 的 金额 和 聚餐 所 人 花费 的 金额 (total bill) ， 通 过 DataFrame 算 术 运 算 ， 新 建 一 列 ， 用 于 存储 小 费 百 分 比 ， 如 图 3.88 所 示 。 


tips[ day'].unique() 


[Sun, Sat, Thur, Fri] 
Categories (d, object): [Sun, Sat, Thur, Fri] 





图 3.86 ”日 期 唯一 值 





图 3.87 ”日 期 平均 小 费 柱状 图 


tips[ percent tip ] = tipsU tip ]/(tipsU total bill”]+tips[ tip ]) 
tips.head(10) 


total bill tip sex smoker day time size percent tip 


16.99 101 Female No Sun Dinner 0.056111 


10.34 1.66 Male No Sun Dinner 0.138333 


21.01 3.50 Male No Sun Dinner 0.142799 


23.68 3.31 Male No Sun Dinner 0.122638 


25.29 4.71 Male No Sun Dinner 0.157000 


8.77 2.00 Male No Sun Dinner 0.185701 


26.88 3.12 Male No Sun Dinner 0.104000 


15.04 1.96 Male No Sun Dinner 


2 
3 
3 
2 
2450 361 Female No Sun Dinner 4 0.128014 
4 
2 
4 
2 0.115294 
2 


re, eo = ce eui ë A Im ho 


14.78 323 Male sun Dinner 0.179345 





图 3.88 ”小费 百分比 


直方 图 如 图 3.89 所 示 ， 可 以 看 出 基本 上 符合 正 态 分 布 ， 但 也 有 几 个 异常 点 。 


bgs Gle BIB bz; ë G25 Db bs55 ë GA 





图 3.89 小费 百分比 直方 图 


第 4 章 ”外 部 数据 的 读 取 与 存储 


对 于 数据 分 析 而 言 ， 数 据 大 部 分 来 源 于 外 部 数据 ， 如 常用 的 CSV 文 件 、Excel 文 件 和 数据 库 文 件 等 。 本 章 将 讲解 如 何 利 用 pandas 库 将 外 部 数据 转换 为 DataFrame 数 据 格式 ， 再 通过 Python 对 数据 进行 处 
理 ， 将 DataFrame 数 据 人 存储 到 相应 的 外 部 数据 文件 中 。 


下 面 给 出 本 章 主 要 涉及 的 知识 点 与 学 习 目标 。 
` 文本 数据 : 学 会 CSV、TXT 等 文本 文件 的 读 取 与 存储 ， 了 解 并 熟悉 pandas 读 取 函 数 参 数 的 使 用 。 
. JSON 和 Excel 数 据 : 学 会 对 JSON 和 Excel 数 据 的 读 取 与 存储 。 
“ 数据 库 数 据 : 介绍 MySQL 数 据 库 的 读 取 和 存储 。 


: Web 数据 : 学 会 简单 的 Web 数 据 的 读 取 。 


4.1 文本 数据 的 读 取 与 仓储 


本 节 主 要 介绍 pandas 解 析 文 本 数据 的 函数 ， 通 过 简单 的 例子 ， 灵 活 使 用 函数 来 读 取 和 人 存储 文本 数据 。 


4.1.1 CSV 文 件 的 读 取 


pandas 库 提供 了 将 表格 型 数据 读 取 为 DataFrame 数 据 结构 的 国 数 。 在 现实 应 用 中 ， 常 用 的 有 read_csv 和 read _table 函 数 ， 具 体 差 异 如 表 4.1 所 示 。 
表 4.1 文本 解析 函数 
字 8 (E H 
read csv P x Er anser 2) BASE RI AUS S SA VAL] DAT 2J E 
read table 从 文件 中 加 载 市 分 隔 符 的 数据 ， 默 认 分 隔 人 符 为 表 


这 
e 


CSV 是 存储 表格 数据 的 常用 文件 格式 ， 可 通过 read_csv 函 数 进 行 读 取 。 首 先 通过 Python 自 带 的 csv 库 创建 CSV 文 件 。 


import csv 
fp = open('H:/pythonZitdi 4) lr / Xii / chAex1.csv', 'w',newline-'') 





























writer = csv.writer (fp) 
writer.writerow(('id name','grade')) 
writer.writerow(('l','lucky!','87')) 
writer.writerow(('2','peter!','92!)) 
writer.writerow(('3','lili','85'!)) 





fp.close() 





除了 通过 打开 文件 查看 数据 外 ， 还 可 以 通过 type 方 法 查看 数据 ， 如 图 4.1 所 示 。 


!type H: XpythonZA1E 23 fT AE chdex1. csv 


1d, name, grade 


1, lucky, 87 
2 peter, 92 
Jj, 1111,60 





图 4.1 ”数据 情况 
Com. 后 面 创建 CSV 文 件 的 代码 将 不 再 展示 ; type 方 法 只 适用 于 Windows 系 统 ，UNIX 系 统 使 用 !cat 命 令 。 


由 于 创建 的 文件 是 标准 的 CSV 文 件 ， 所 以 使 用 read_csv 函 数 读 取 即 可 ， 如 图 4.2 所 示 。 


import pandas as pd 


df = pd.read csv(open( H: /py thon tik 1 4/1 /2HE /chdexi. csv )) 
df 


id name grade 


0 1 lucky 





1 2 peter 
2 3 lili 





图 4.2” 读 取 CSV 文 件 1 
公 注 意 : 读 取 CSV 文 件 时 ， 如 果 文 件 路 径 中 有 中 文 ， 需 要 加 open 哟 数 ， 否 则 会 报错 。 


对 于 CSV 文 件 ， 也 可 以 使 用 read_table 进 行 读 取 ， 指 定 分 隔 符 即 可 ， 如 图 4.3 所 示 。 


df = pd.read table(open( H: /pythonZA1R 43 4f HE /chdex1. csv! ), sep2^ ,") 
dt 





图 4.3 ” 读 取 CSV 文 件 2 


但 实际 应 用 中 ，CSV 文 件 的 格式 并 不 会 如 此 规整 。 下 面 通 过 几 个 例子 来 讲解 read_csv 浮 数 的 参数 (read_table 函 数 参数 也 相同 ) 使 用 ， 以 解决 各 种 CSV 文 件 的 读 取 方法 。 
1. 指定 列 作为 索引 


默认 情况 下 ， 读 取 的 DataFrame 的 行 索引 是 从 0 开始 进行 计数 。 以 前 面 的 CSV 文 件 为 例 ， 读 者 可 自由 指定 列 为 行 索引 。 例 如 ， 通 过 index_col 参 数 指定 id 列 为 行 索引 ， 如 图 4.4 所 示 。 


df = pd.read csv(open( H: Apythongy 握 分 析 房 W 握 /cehdexl. csm ), index col-'id') 
df 


name grade 


id 


1 lucky 


2 peter 
J lili 





图 4.4 指定 行 索引 


如 果 希 望 多 个 列 做 成 一 个 层次 化 索引 ， 传 入 列 编号 或 者 列 名 组 成 的 列表 即 可 。 首 先 看 下 CSV 文 件 ， 如 图 4.5 所 示 。 传 入 列 编号 和 列 名 ， 可 将 多 列 做 成 层次 化 索引 ， 如 图 4.6 所 示 。 


!type H: VpythonZAdER 145 HR chdex2. csv 


school,id,name, grade 
a, 1, lucky, ST 


a, 2, peter, 92 
a, 9, 1111,85 
b, 1, coco, i a 
b, 2, kevin, 87 
b, 3, heven, 96 





图 4.5 ”数据 情况 


df = pd.read csv(open( H: /pythonZA1E ^ f /ZHE /chdex2. csv ), index. col-[0," id' ]) 
df 


name grade 
id 


lucky 


peter 


lili 
coco 
kevin 


heven 





图 4.6 ”层次 化 索引 


2. 标题 行 设置 


有 些 情 况 下 ，CSV 文 件 没 有 标题 行 ， 如 图 4.7 所 示 。 


!type H: XpythonzZAHE 3 4f HE chdex3. csv 
1, lucky, 897 


2, peter, 92 
39, 1111,85 





图 4.7 ”数据 情况 


如 果 使 用 默认 情况 读 取 ， 会 指定 第 一 行为 标题 行 ， 这 是 不 符合 实际 情况 的 ， 如 图 4.8 所 示 。 


= pd.read csv(open(Ü H: /python 据 分 析 HE /chdex3 


1 lucky 87 
2 peter 92 





3 lili 85 


E48 ”默认 读 取 


读 取 该 文件 的 方法 有 两 种 ， 一 种 是 通过 header 参 数 分 配 默 认 的 标题 行 ， 如 图 4.9 所 示 。 


= pd.read csv(open( H: /pythonZAdig 31 /ZHE /chdex3. csv ), header-Hone) 


T 2 


lucky 87 


peter 92 


lili 85 





图 4.9 ”默认 标题 行 


另 一 种 方法 是 通过 names 参 数 给 其 指定 列 名 ， 如 图 4.10 所 示 。 


df = pd.read csv(open( H: 加 ython 数 据 分 析 考据 Ahdex3. csv ) ,nanes=[ id' ," name" ," grade" ]) 
dt 


name grade 


lucky 
peter 





E410 ”指定 标题 行 
3. 目 定 义 读 取 


由 于 数据 原因 或 者 数据 分 析 的 需要 ， 有 时 可 能 只 需 选 择 读 取 部 分 行 或 列 。 首 先 看 一 下 数据 情况 ， 如 图 4.11 所 示 。 


!type H: \python 据 分 析 \ 娄 I 扬 \chdexd. csv 


&This is grade 
id, name, grade 
1, lucky, 87 

2, peter, 92 

3j, 1111,65 
&time 





图 4.11 ”数据 情况 


这 时 可 通过 skiprows 参 数 跳 过 一 些 行 ， 如 图 4.12 所 示 。 


df = pd.read csv(open( H: /pythonZA1E 31 /Z HE /chdexd. csv ), skiprows= [0, 5]) 
df 


id name grade 


0 1 lucky 87 


1 2 peter 92 
2 3 lili 85 





图 4.12” 跳 过 行 


有 了 时 只 需要 读 取 部 分 数据 ， 我 们 通过 图 4.13 所 示 的 数据 ， 进 行 讲解 。 


!type H:\python 数 据 分 析 \ 数 据 \titanic. csv 


“Cumings, Mrs. John Bradley (Florence Briggs Thayer) ,female, 38,1,0,PC 17599, 71. 2833,C85,C 
, Heikkinen, Miss. Laina ,female, 26,0,0,STON/O2. 3101282,7.925,,5 

"Futrelle, Mrs. Jacques Heath (Lily May Peel)^, female, 35, 1, 0, 113803, 53. 1, C123, S 

"Allen, Mr. William Henry”, male, 35, 0, 0, 373450, 8. 05,, S 

"Moran, Mr. James”, male, ,0,0, 330877,8.4583,,Q 


alsson, Master. Gosta Leonard”, male, 2, 3, 1, 349909, 21. 075,, S 

ohnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)”, female, 27,0, 2, 347742, 11. 1333,, S 

Nasser, Mrs. Nicholas (Adele Achem)”,female, 14, 1,0, 237736, 30. 0708, ,C 
Sandstrom, Miss. Marguerite Rut^,female,4,1,1,PP 9549,16. 7,G6, S 
"Bonnell, Miss. Elizabeth”, female, 58,0,0, 113783, 26. 55, C103, S 
"Saundercock, Mr. William Henry ,male, 20,0,0,4/5. 2151,8.05,,S 
"Andersson, Mr. Anders Johan ,male, 39, 1, 5, 347082, 31. 275,, S 

, Vestrom, Miss. Hulda Amanda Adolfina', female, 14,0,0, 350406, 7. 8542,, S 

, Hewlett, Mrs. (Mary D Kingcome) ",female, 55,0,0, 248706, 16,, S 

, Rice, Master. Eugene”, male, 2, 4, 1, 382652, 29. 125,,Q 
"Williams, Mr. Charles Eugene”, male, , 0, 0, 244373, 13,, S 


rd 





图 4.13 ”数据 情况 
Cum: 该 数据 为 Kagple 比 赛 中 的 泰坦 尼克 号 生还 者 数据 。 


通过 nrows 参 数 ， 可 以 选择 只 读 取 部 分 数据 ， 如 图 4.14 所 示 。 


df = pd.read csv(open( H: /python 数 据 分 析 j 六 I 据 /titanic. csv ), nrows=10) 
df 


Passengerld Survived Pclass Name Age SibSp Parch Ticket Fare Cabin Embarked 
1 0 3 Braund, Mr. Owen Harris male 22.0 1 Aj5 21171  Á 7.2500 NaN 


一 


1  Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 PC 17599 712833 C85 
3 Heikkinen, Miss. Laina female 26.0 STON/02. 3101282 7.9250 NaN 
1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 113803 53.1000 
Allen, Mr. William Henr; male 35.0 373450 — 8.0500 
Moran, Mr. James — male NaN 330877 8.4583 
McCarthy, Mr. Timothy J male 54.0 17463 51.8625 
Palsson, Master. Gosta Leonard male 2.0 349909 21.0750 


(o O * O QT Ma tQ NM 


Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg) female 347742 11.1333 


Eu o o D D o ouv o.o 


2 
3 
4 
5 
6 
7 
8 
9 


一 
e 


Nasser, Mrs. Nicholas (Adele Achem) female 237736 30.0708 





图 4.14 ”选择 读 取 行 数 


如 果 只 是 为 了 研究 生还 者 (Survived) 和 性 别 (Sex) 之 间 的 关系 ， 可 通过 usecols 参 数 进行 部 分 列 的 选取 ， 如 图 4.15 所 示 。 


df = pd.read csv(open( H: /pythonZAE 118 /ZAHE / titanic. csv ), nrows=10, usecols-[' Survived ,' Sex’ ]) 
df 


Survived Sex 


male 


— 


female 
female 
female 
male 
male 
male 
male 


female 


M. X —- LAM AM D Uu LI 


female 





图 4.15” 读 取 部 分 列 


在 处 理 很 大 文件 的 时 候 ， 需 要 对 文件 进行 逐 块 读 取 ， 首 先 通 过 info 函 数 查看 泰坦 尼克 号 的 生还 者 数据 ， 共 有 891 条 数据 ， 如 图 4.16 所 示 。 


Ata: 这 里 只 是 作为 案例 ，891 条 数据 并 不 多 。 


通过 chunksize 参 数 ， 即 可 逐步 读 取 文件 ， 如 图 4.17 所 示 。 


df = pd.read csv(open(Ü H: /pythonZA1E ^] 45 /24HE /titanic. csv )) 


df. info 


<class ' pandas.core.frame.DataFrame'? 
Rangelndex: 891 entries, O to 890 
Data columns (total 12 columns): 


PassengerlId 
survived 
Pclass 
Name 

Sex 

ge 
SibSp 
Parch 
Ticket 
Fare 
Cabin 
Embarked 


821 
891 
S91 
821 
891 
714 
891 
891 
891 
891 
204 
S89 


non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 
non-null 


int64 
int64 
int64 
object 
object 
float64 
int64 
int64 
object 
float64 
object 
object 


dtypes: float64(2), int64(5), object(5) 


83. 6+ KD 





memory usage: 


图 4.16 ”数据 信息 


chunker = pd.read csv(open( H:/pythonfdiE 1 /ZAE /titanic. csv), chunksize=100) 
chunker 


Spandas.io.parsers.TextFileReader at 0x83329e8» 





图 4.17 ARR 


bá 


里 返回 的 是 可 和 迭代 的 TextFileReader。 通 过 迭代 ， 可 以 对 Sex 列 进行 计数 ， 结 果 如 图 4.18 所 示 。 代 码 如 下 : 


male 571.0 
female 314.0 


dtype: float64d 





E448 ”结果 








from pandas import Series 
import pandas as pd 
chunker = pd.read csv (open('H:/python 数 据 分 析 / 数 据 /titanic.csv')， 
chunksize-100) 
sex — Series([]) 
for i in chunker: 
sex — sex.add(i['Sex'].value counts(), 
fill value-0) 








Sex 





read csv 常 用 的 参数 说 明 如 表 4.2 所 示 ， 更 多 read csv 参 数 的 使 用 说 明 ， 读 者 可 自行 查阅 pandas 官 方 文档 。 


表 4.2 ”fread_csv/read_table 参 数 


参 UU 使 用 说 明 

path 文件 的 路 径 

sep 字段 隔 开 的 字符 序列 ， 也 可 使 用 正则 表达 陈 

header 指定 列 索 引 。 默 认为 0〈 第 1 行 ) ， 也 可 以 为 None， 或 没有 header 行 

CHE) 

2 A 使 用 说 明 

index col HT TR SIE A A B EJ y 

names 站 定 列 索引 的 列 名 

skiprows ia 2 ARJIT MAFF 48 Ab E) 

nrows 需要 读 取 的 行 数 〈( 从 文件 开始 处 算 ) 

chunksize 文件 块 的 大 小 

usecols 指定 读 取 的 列 


4.1.2 TXT 文件 的 读 取 


TXT 文 件 使 用 的 分 隔 符 可 能 并 不 是 逗号 ， 这 里 创建 一 个 分 隔 符 为 “? ”的 TXT 文档 。 代 码 如 下 : 





— open('H: 
writelines 


/python 数 据 分 析 / 数 据 /ch4ex6.txt'v 'at') 
('id?name?grade'+'\n') 











nes ('"1?lucky?87'+' ) 








( 
writelines( 
lines( 














'22 eter? +'\n'!) 
13?1ili?85'+'\n') 














Fh Fh hh hh hh hh 
'O '0 '0 '0''0'0 


WELE 
close () 





创建 的 TXT 文档 如 图 4.19 所 示 。 


!type H:XpythonZHIE A] RAE chdex6. txt 


id?name'"7grade 


17lucky?87 
2ipeter'/92 
321111785 





E439 ”数据 情况 


通过 read_table 遂 数 中 的 sep 参 数 进行 分 隔 符 的 指定 ， 如 图 4.20 所 示 。 


import pandas as pd 
df = pd.read table(open(Ü H: /pythonZA1E 4118 /?AHR /chdex6. tx t' ), sep ? ) 
df 


id name grade 


0 1 lucky 87 


1 2 peter 92 
E. 3 lili 85 





图 4.20 指定 分 隔 符 


现实 情况 中 ， 有 些 TXT 文 件 并 没有 固定 的 分 隔 符 ， 而 是 用 一 些 数量 不 定 的 空白 符 进 行 分 隔 。 数 据 情 况 如 图 4.21 所 示 。 


pe H: \python ETIT 考据 Wechdex7. txt 


id | name grade 


1 lucky 5f 
à peter g2 
Jj lili 85 





图 4.21 ”数据 情况 


这 种 情况 下 也 可 以 手动 处 理 ， 但 数据 量 过 多 时 ， 手 动 处 理 就 会 很 耗 时。 本 例 可 通过 正则 表达 式 来 处 理 ， 如 图 4.22 所 示 。 


df = pd.read table(open( H: /pythonZAHZ 1f /ZHE /chdexT. tx t' ) ,sep= xs ) 
df 


id name grade 
0 1 lucky 87 
1 2 peter 92 





2; EE. lili 85 


图 4.22 ”正则 表达 式 使 用 
OES: 正则 表达 式 的 内 容 第 5 章 会 有 详细 介绍 。 


4.1.3 ”文本 数据 的 存储 


在 对 数据 进行 处 理 和 分 析 之 后 ， 通 常会 把 数据 存储 起 来 。 下 面 以 前 面 的 一 个 CSV 文 件 为 例 讲 解数 据 存储 的 方法 ，CSV 文 件数 据 如 图 4.23 所 示 。 


Import pandas as pd 


df = pd.read csv(open( H: /pythonZAZ ^1 1H /ZHE /chdex1. csv )) 
df 


id name grade 
0 1 lucky 87 
1 2 peter 92 





£ 3 lili 85 


图 4.23 CSV 文件 数据 
利用 DataFrame 的 to_csv 方 法 ， 可 以 将 数据 存储 到 以 逗号 分 隔 的 CSV 文 件 中 ， 如 图 4.24 所 示 。 


df. to csv H: /pythonZA1z 115/248 outi. csv ) 
Itype H:spythonZAIZ2] 5 AE outil. csv 


, 1d, name, grade 
0,1,luckv,6! 
1,2,peter,92 
2.9, L1l21,85D 





图 4.24 ”存储 数据 1 


也 可 以 通过 sep 参 数 指定 存储 的 分 隔 符 ， 如 图 4.25 所 示 。 


df. to csv H: /pythonzA1E ^1 18 /241E /out2. csv ,sep= T) 
!type H:XpythonZA1R 43 1/8 XE out2. csv 


?id?name"7grade 
Q?1"7lucky?87 
1727peter'792 
22921111185 





图 4.25 ”存储 数据 2 


这 种 情况 下 会 存储 行 和 列 索引 ， 我 们 可 以 通过 设置 index 和 header 分 别处 理 行 和 列 索 引 ， 如 图 4.26 所 示 。 


df. to csv H: /pythonZHE 75 f/ /28 /out3. csv , index-False) 
Itype H:pythonZAHR ^14 2838 out3. csv 


1d, name, grade 
1, lucky, 87 
2, pēter, 92 
J, L111, 590 





图 4.26 ”存储 数据 3 


4.2 JSON 和 Excel 数 据 的 读 取 与 存储 


本 节 主 要 介绍 通过 pandas 解 析 J3SON 和 Excel 数 据 的 方法 ， 并 学 会 这 两 种 常见 数据 的 存储 方法 。 


4.2.1. JSON 数据 的 读 取 与 存储 


JSON (Javascript Object Notation) 数据 是 一 种 轻 量 级 的 数据 交换 格式 ， 因 其 简洁 和 清晰 的 层次 结构 使 /SON 成 为 了 理想 的 数据 交换 语言 ， 如 图 4.27 所 示 。 


itype H:\python 数 据 分 析 \ 数 据 \eueo2012. json 


[Team : [0”: “Croatia “1 :Czech Republic “2”: Denmark ,3°: “England 4^: "France", 5 : Germany , 6 : Greece’, T : Italy , 8^: Netherland 
s^,^9^":"Poland/, ^10^:^Portugal', 11":^Republic of Ireland/, '12^:"Russia', 13": Spain”, 14": Sweden", 15^: "Ukraine ], “Goals”: {°0°:4, "1": 

4, ^2^:4,^3^:5, ^4^:3, ^5 :10,76 :5,^1^:6, 8^ :2, 79^:2, ^10" :6, ^11" :1, ^12^:5, ^13^:12, ^14" :5, ^15^:2], "Shots on target :|^0^:13, ^1^:13, ^2^:10, ^3":1 
la 4 124. U dà O we. T :06, BH 14s D 115, 10 122, "11 11 12:5, 19 242314 40, 35 1T), Shota-ofb tagot sO 715,1 119, 2:10; 9 11 

8, 4d ‘245 :32, 76:18, 1:45, 8:36, 9^ :23, 10 :42, 711^ :12, 12^ :31, 13^ :33, 14" :19, ^15" :26], "Shooting Accuracy :| 0 :^751.9* ^, "1^: dl 

DY *2^:^50.0€^, ^3": "50.0 , "4^ :^37.98",^5^:^47.8& , 6 : ^30. 1€ ,^1^:743.0«', ^8^:^25.0€«", 9 :*39. 4X", ^10" : ^34. 3$, ^11": ^36. 8X , ^12" : ^22. 
554^,^13':/55.94 , ^14": 747. 24€, "15 : 21. 28], N Goals-to-shots^:[/0^:^16.0*^, ^17:^712.9«^, ^2^:^20.0€4", 37:717. 28^, dd :76. 53^, ^5^:^15. 

65^, 6 : 19.257,71 1:71.58, 8 :74.1€', ^9" :^5.24 , "10^ :79. 3€", 117: 75. 28^, ^12": 12. 55^, ^13^:^16.0«",^14^:^13.8x', ^15^:76.0« ], "Total shots (i 
nc. Blocked)": [^0^:32,71^7:39,^2^:2T, 37:40, "4:65, ^8 :80; ^8 :32, 1:110, ^8^:60, "9^ :48, 710^ :82, 711^: 28, 712^: 09, ^13" :100, 14" : 89, 15 :38]; "Rit 
Voodyork : r a ad 72. :1, 37:0, 74 31,8 :2;78 :1, 17:2, 8 :2, 9 :0;^10^:6, 711 :0,:12 :2, 719750, 1497: 5; ^18 *0], "Penalty qoala : 1707 
0 10,75 11,78 :1, 1 30,78 :0, 9 :0;^10^:0, 11:0, 12:0, 13:1, 14 :0,^15 :O], Penalties not »cored :1 0:0, Oo 
ids L $40 D uA 3:55 
zA ^ 


^ 
3, 


:0, 
4" 
9 
9” 


i 
0 3: " "ua wm x 44107 :05 141720, 12720; 19 306; Td ;0; Tb "Dh "Haaded goals : 07:2, 17:0, "27:9 02 25; 43:0, B5 
2,8: ，10 :2, 11^:1, "12^:1, "13^ :2, ^14" :1, ^15" :2], "Passes" 0 :1076, 1 :1565, 2 :1298, 3 :1488, "4" :2066, 5^ :2114, ^6 :118 
T "o 7:15 : 1058, ^10^:1891, ^11" :851, ^12^:1602, ^13^:4317, ^14" :1192, ^15" :1276], "Passes completed :1/0^:828, 1^ :1223, ^2^:1082, ^3^:1 
200, * ELE EA ET h N a at ME 洲 - , 9^:852, "10^: , 11':606, "12": «x , 14" :965, ^15": , Passing Accuracy”: 

10: peo al 9, an o aa EN e Montt 和 mtm s Dm hs o cmm 
1*:*71. 25^, ^12^:^783. 9X", 13^: 788. 4«^, ^14^: 780. 90^, ^15^: ^81. 7&"] , "Touches" : [/0":1706, ^1^:2358, "2^ :1873, ^3^:2440, "4^ :2909, *5^:3761, ^6" :201 

6, 7 :4363, "8" :2163, "97:1724, "10" :2958, "11" :1433, "12^ :2278, "13^ :5585, 14 :1806, "15^ :1894], "Crosses" :| 07:60, ^1" :46, "27:43, ^3 :58, "4^ :55, ^5": 
101,78 :52, 7T 515, 8 :DO, 9:56; 40 OT 11^ da 12" :40; "19^ "Hn 14" "Ad "15": 33], "bribbles":1/07:42, 1 :08,"2 292, ^3 :00, "4" TH, ^B :00; "8:6 
9, ^1^ 1:15, "8^ :49, ^9^:39, "10^ Bd ^11^:18, ^12^:40, "13^ :106, ^14" :29, ^15^:26], "Corners Taken" 1 0 ld "17:21, ^2^:16, ^3^:16, ^4" :28, 5^ :35, 76^ :1 

0, ^1^:30, ^8^:22, "9^:14, "10^:41, ^11" :8, ^12^:21, 13^ :44, "14" : 7, ^15" :18], "Tackles":[/0^:49, ^1^:62, ^2^:40, ^3" :86, 4^ :71, 5 :91, ^6  :65, 7 :9 

8, 8 :34, ^9^:67, 10^: 78, ^11" :45, "12^ :65, -19 :122, "14^ :56, 16 :65], "Clearances^:[/0^:83, ^1" :98, ^2^:61, /3^:106, 4^ :76,^5^:73, ^6 :123, ^1" :13 

7, 8 :41, ^9^:87, 10° :92, "11 78, ^12" : 74, "13^ :102, "14^ :54, "15^ :97], "Interceptions :|/ 0:56, 17:37, 2 :59, 37:72, 4^ :58, 5^ :69, 6 :87, 1^ :13 
^8" :41, "9*:62, ^10" :86, ^11" :43, "12" :58, ^13" : 79, ^14" :45, ^15^:29], ^Clearances off line^:[/0^:null, "1":2.0, "2^ :0.0, ^3" :1.0, "4^ :0.0, ^5" :0. 

6 -:0.0, ^1 11.0, 78 :0,0, 9 :0,0, -107:0;0,^117:1.0, 12*7:0.0;^19. :0.0,714 :0:0; 15 :0.0], Clean Shedte :[/0 70; 17:572 :1,79:2; 4" L5; ^B: 
78794; 70:0. G0 710512. 731740. ^12* 107" 19* 3807314 lO Bioctks : [0^ :10:;712:10, 2 510,797 229,74 $1, B^ 911; 78:29; 1:18; "B5 
"Bt 710 a :909 12" :87719 10. 200: :12 "Ib": 4E "Mola DuaceHdad ED 41:85, br qd 3:05 0 HB HE X 1578 :5, H5, 1075 


*. 


TE 
3g" 
"; 5 
8 


3, 


1 
:0 
:0 
"0 
56, 


^ 


a 


Ed 


M 





6 
0 
l 
9, 

E427 JSON 数 据 
uus 该 数据 为 2012 欧 洲 杯 比赛 数据 。 


对 于 JSON 数 据 ， 常 使 用 两 种 方法 来 读 取 。 一 种 是 通过 Python 的 第 三 方 库 json， 通 过 下 面 的 代码 可 以 将 JSON 数 据 转化 为 字符 串 格 式 ， 如 图 4.28 所 示 。 


import json 

f = open('"H:/python 数 据 分 析 / 数 据 /eueo2012.json') 
obj = f.read() 

result = json.loads (obj) 

result 














| % Goals-to-shots' : 


eS Los. 
740^: 
4*4 
fk y cg 
Wg s 
p% P be 
A i 
pi ni. 
uet 


J |) á 


"Be 


12.9%, 
“DS 
"5. 2% ， 
12.5%, 
16.0%, 
"ig. 9. 
'6.0w , 

* 20. 0€ , 

^17.2* , 


GFE: 也 可 以 通过 json.dumps 将 字符 串 转 换 为 JSON 格 式 。 


然后 将 数据 输入 DataFrame 构 造 器 ， 即 可 完成 对 JSON 数 据 的 读 取 ， 如 图 4.29 所 示 。 


LO : 


* 16 


. 0% ， 


from pandas import DataFrame 
df = DataFrame (result) 
df 


% 


Goals- 
to- Blocks Sheets 


shots 


Shots Shots subs Subs 


off on 


Clean Clearances Corners 


Fouls Fouls Shooting 
Clearances off line Taken 


Conceded Won Tackles 


Crosses Dribbles 


on 
Accuracy target target 


16.0% 10 83 NaN 14 60 42 62 a... 51.996 12 13 49 


12.9% 10 98 2.0 21 46 68 ka OR "- 18 13 62 


9.396 11 92 0.0 41 91 64 90 C3 Cu 78 


78 1.0 8 43 18 51 83 .. 45 


74 0.0 40 40 43 28 65 
0.0 69 83 
0.0 44 51 
0.0 33 31 
0.0 43 38 
1.0 58 45 





图 4.29 ”构造 DataFrame 
人 注意 : 由 于 数据 类 似 字典 结构 ， 因 此 读 取 时 会 乱 序 。 
另 一 种 方法 则 是 直接 通过 read json 函 数 来 读 取 JSON 数 据 ， 如 图 4.30 所 示 。 
import pandas as pd 


df = pd.read json( H: ython 数 据 分 析 /2HR /eueo2012. json’ ) 
df 


Shots 
off Tackles 
target 


Clearances Corners 
off line Taken 


Fouls Shooting 


Crosses Dribbles Conceded " Accuracy 


Clearances 


83 NaN 14 42 62 os 51.996 12 


98 2.0 21 68 " 41.996 18 


92 0.0 41 64 " 34.396 42 


78 1.0 8 18 i 36.8% 12 


74 0.0 A 22.596 31 
0.0 "t 55.996 33 
0.0 ih 47.2% 19 
0.0 X 21.2% 26 
0.0 A 50.096 10 
1.0 E 50.096 18 





图 4.30” 读 取 JSON 数 据 


由 于 读 取 时 会 乱 序 ， 这 里 重新 对 行 索引 进行 排序 ， 如 图 4.31 所 示 。 


df = df.sort index() 
df 


Shots Shots 


off Subs Subs 


Clearances Corners Fouls Fouls Shooting 


off line Taken 


Clean 


Clearances Crosses Dribbles Tackles 


Conceded Won "' Accuracy target on 


NaN 14 62 4T. . 51.996 12 


2.0 21 T3 os ~ 41.996 18 


0.0 38 AZ» ais 50.096 10 
1.0 45 43 .. 50.096 18 
0.0 51 JO. 37.996 24 
0.0 48 63 .. 47.8% 32 
0.0 48 GE .. 30.7% 18 
1.0 89 a” 43.0% 45 
0.0 30 2 25.096 36 


«co oO au Cc» Qm d» tC Ww 


0.0 56 - 39.496 23 
0.0 90 - 34.396 42 


-— -~ 
- CC 


1.0 51 "- 36.896 12 





图 4.31 重新 排序 


最 后 使 用 to_json 函 数 对 DataFrame 数 据 进 行 相 应 的 存储 ， 如 图 4.32 所 示 。 


df.to json( H: python 关 所 分 析 AE /out4. json’ ) 
!type H: \python 数 据 分 析 "\ 数 据 \out4. json 


DO 
0:79.94, "117: 5.28 , 12 : 12.50€ 19 16.04€ , ^14 :713.8€* , 18 : 6.0* 1, Blocks :10^:10, do 2 :10, ^3" :29, 4" :1, ^8 :11, 6:29, Pol 

8, ^8^:9, ^9":8, ^10 :11, ^11 :23, 12:8, 19:8; 14 :12, 15 :4]; Clesen Sheets :(70:0, 1:1; 27:173 72, 4:1, 65:13; 8:1, 1:2, B :0, 9 :0, 1 
0*:2,"11 :0,712^:0, 19:5, 14:1; 15:0], Clearences :1707:89, 1 :98, "2^ :61, 73:108, 47:76, 8:19, 8:129, 1:137, 8" :41, 9 :81, 10 :92, 1 
1:78, ^12^:74, ^13^:102, ^14^:54, ^15 :97], "Clearances off line^:1 0" :null, '1^:2.0, ^2^:0.0, ^3" :1.0, "4^ :0.0, ^5^:0.0, ^6^:0.0, ^1^:1.0, ^8^:0.0, ^9^: 
0.0, ^10^:0. 0, ^11^:1.0, ^12" :0.0, ^13^:0.0, ^14" :0. 0, ^15" :0. 0], Corners Taken: [^0^:14, "17:21, ^2^:16, ^3^:16, 4 :28, ^5 :35, ^6 :10, ^1^:930, ^8^:2 


2,9 :14, ^10 :41, 11:8, 12:21 13:44; 14": 7;^15^:18]; Crosses :170 60, ^1^:46,2^:43, ^9^:B8; 4:55, B :101; 8:52, 1:15, ^8 :50, 9^ *55; ^1 
0^:91, ^11" :43, ^12^:40, 13" :69, 14^ :44, 15:33], "Dribbles :[ 07:42, ^1" :88, ^2^:32; ^3" :60, 4^ :16,^5^:60, 8" :53, T 1:15, 8:49, 9 :39, "10" :04, "1 
1^:18, "12^:40, "13^ :106, ^14^:29, ^15" :26], "Fouls Conceded :[/0^:62, 17:13, 2^ :38, ^3" :45, "4" :51, 5^ :49, ^6 :48, ^1 :89, ^8" :30, "9^ :56, "10^ :90, ^1 
17:51; 12:43, 13 :83, 14" :51, 15 :31], Fouls Won :[ 07:41, 17:53, 2:25, 3 :43, 4 :36, 5:63, 6 :61, 1:101, 8 :35, 9^ :48, 10^ :73, "11^ :4 

9; 12:94, 19:102; 14^ :95; 15 MS; Goals :10 :4; 1:4; 2:4, 9:5, 4:9; 5:10, 8 :5; 1 :6,.8 522; 2 10.586; 11:1 12:5, 13 5:12, 14: 


6, 15:2}, "Goals conceded : 107:3; 1 :6, ^2^:5,^3^:3 
0813 7:170 18;^1 10;727 29,798; 4 10;^8 12;"6 *0; ^T": 
人 


; 4:5 D CEU 4. 79 9 t9, 40 :4, 11 :0, 12. :9, 19.:3; M :5,; 15. :4H;  Hesded-g 
2^8 1 9 79 51,*10^:2, 11:135 12:1, 19:2; 714^:1; 15^ 1:21; Hit Woodwork":170^:0; ^1^; 
1 an :2, d :0, Pod : 3; s" ii dogs : U o" m U^: 37, a *BED, 79:7 
si es^ ; 6 





图 4.32 JSON 数 据 存储 


4.2.2 ” Excel 数据 的 读 取 与 存储 


Excel 表 格 数据 也 是 工作 中 常用 的 一 种 数据 ， 读 者 应 该 对 其 并 不 陌生 。 我 们 可 以 通过 read _excel 和 to_excel 函 数 对 Excel 数 据 进行 读 取 和 人 存储。 首先 创建 一 个 Excel 数 据 ， 如 图 4.33 所 示 。 
过 read excel 函数 读 取 数 据 ， 可 通过 参数 sheetname 指 定 读 取 的 工作 得 ， 如 图 4.34 所 示 。 


通过 to_excel 函 数 将 DataFrame 文 件 人 存储 为 Excel| 数 据 类 型 ， 如 图 4.35 所 示 。 代 码 如 下 : 


df.to excel ('H:/python 数 据 分 析 / 数 据 /out5.xlsx',sheet name-'out', 
index-None) 











美化 大 师 “。 福 昕 阅读 器 YO 
o, a SHER - 站 a 

* | E54 套用 表格 格式 > 
- D 单元 格 样式 - 





单元 格 ”编辑 


(n) 模板 专区 chdex8 X 十 


ue | 5 J —Xb 
name grade 

1 lucky oT 

2 peter 92 

3 lili 85 














HH W| -— ——1— — — - 10096 


图 4.33 ”数据 情况 
Import pandas as pd 


df = pd.read excel(' H:/pythonZAE 1f Æ /chdex8. xlsx’ , sheetname-' Sheeti' ) 
df 


id name grade 


0 1 lucky 87 


1 2 peter 02 
2 qd lili 85 





Ej4.34 ” 读 取 Excel 文 件 


视图 škim gags XY 
Ez 条 件 格式 - EM 

E: 套用 表格 格式 - 
[37 单元 格 样式 > 


单 7r 格 ”编辑 


(n) 模板 专区 out5 


B 1 C | 

name rade 
1 lucky 87 
2 peter 92 
3 lili 85 


COO ~N CO» Ol Pe OUO N eI 





图 4.35 “存储 为 了 Excel 数据 类 型 


4.3. 数据 库 的 读 取 与 存储 


在 许多 工作 应 用 中 ， 常 使 用 的 文件 来 源 于 数据 库 。 本 节 主 要 介绍 如 何 通 过 Python 连 接 并 操作 MySQL 数 据 库 ， 以 及 pandas 解 析 MySQL 数 据 库 的 方法 ， 并 使 读者 学 会 MySQL 数 据 库 的 存储 方法 。 


4.3.1 ”连接 数据 库 


MySQL 是 目前 最 受 欢迎 的 开源 天 系 型 数据 库 。 我 们 可 以 通过 Python 进行 MySQL 数 据 库 的 连接 和 使 用 ， 但 是 需要 安装 第 三 方 库 PyMySQL。 可 以 通过 conda 命 令 来 安装 ， 如 图 4.36 所 示 。 





conda install pymysql 








CF: Anaconda\envs ata—analysis» GCG:\Jsers\LP>2conda install pymysql 


Fetching package metadata 


Solving package specifications: 


NE 管 理 员 : Anaconda Prompt (data-analysis) 


11 


Package plan for installation in environment F: Mnaconda\envs lata—~analysis: 


The following NEW packages will be INSTALLED: 


pymysql: 


Proceed CLyl/n?? y 


pymysql-ð.7.11i 100z 


<F:\Anaconda\envs lata—~analysis> C:WsersSNLP> 


通过 下 面 的 代码 可 连接 到 本 地 的 MySQL 数 据 库 。 


import pymysql 
conn = pymysq] 





host-'localhost', 
user-'root', 
passwd-'123456', 
db-'mydb', 
port-3306, 
charset-'utf8') 


连接 数据 库 后 ， 可 通过 PyMySQL 库 来 操作 数据 库 ， 如 建 表 、 增 、 删 、 改 和 查 等 操作 。 首 先 通 过 以 下 代码 新 建 一 个 样 表 。 








| .connect ( 


























































































































01 import pymysql 
02 conn = pymysql.connect( 
03 host-'localhost', 
04 user-'root', 
05 passwd-'123456', 
06 db-'mydb', 
07 port-3306, 
08 charset-'utf8') 连接 数据 库 
09 cursor = conn.cursor() 创建 游标 
10 creat = ''' 
TL CREATE TABLE ch4ex9 ( 
T2 id int, 
13 name char (8), 
14 grade int 
15 ) ENGINE INNODB DEFAULT CHARSET-utf8;''' 
16 cursor.execute (creat) 执行 命令 
17 conn.commit () 完成 命令 
第 1 行 导 
表 的 操作 。 


接 下 来 插入 几 行 数据 ， 代 码 如 下 : 


ursor. 


ursor. 


ursor. 





QOQ—0—0-4^0 


ursor. 





conn.cl 


35 Ea: 
onn.commit () 


xecute ("insert 
1,'luchy',87)) 





xecute ("inser 





2,'peter',92)) 





xecute ("inser 
p 785)) 





close() 
ose () 


新 建 的 表 如 图 4.37 所 示 。 





to ch4 








to ch4 











to ch4 


lex9 


lex9 


lex9 


(id,name,grade) va 
(id,name,grade) va 


(id,name,grade) va 











Hd.?7.11—-py36hf59f3ba_@ 


| THETEHIETETEHETETETETETETETETETETETETETETETETETETETETETETE TET i 


入 PyMySQL 库 ; 第 2 ~ 8 行 用 于 连接 MySQL 数 据 库 ，conn 为 连接 对 象 ; 第 9 行 中 的 cursor 为 光标 对 象 ， 用 于 操作 MySQL 数 据 库 ;第 10 ~ 16 行 执行 创建 表 的 命令 ; 


lues ($s,$s,$s)", 
lues ($s,$s,$s)", 


lues ($s,$s,$Ss)", 


六 游标 

















六 连接 


日 :日 日 :日 日 





E 


Hx 


213.59 kB/s 


后 通过 commit 命 令 完成 建 


mysql>? select * from ch4ex?; 





rows in set 《日 .0 sec) 





图 4.37 ”数据 情况 


这 里 为 读者 提供 两 种 方法 来 读 取 MySQL 数 据 。 一 种 是 通过 PyMySQL 库 读 取 数据 库 ， 然 后 传 入 到 DataFrame 构 造 器 中 ; 另 一 种 是 直接 使 用 read_sq| 函 数 进 行 数据 的 读 取 。 
首先 介绍 第 一 种 方法 。 先 通过 PyMySQL 库 读 取 数 据 : 


from pandas import DataFrame 
import pymysql 
conn = pymysql.connect( 
host-'localhost', 
user-'root', 
passwd-'123456', 
db-'mydb', 
port-3306, 
charset-'utf8') 
cursor = conn.cursor() 
rows = cursor.execute('select * from ch4ex9') 




















结果 为 3， 说 明 有 3 行 数据 。 通 过 游标 的 fetchall 方 法 ， 取 得 所 有 数据 ， 如 图 4.38 所 示 。 


data = cursor.fetchallí) 
data 


((1, luchy , 87), (2, "peter, 92), (3, "lili , 85)) 


图 4.38 ”获取 数据 


然后 把 这 个 元 组 列表 化 后 传 给 DataFrame 构 造 器 ， 如 图 4.39 所 示 。 


from pandas import DataFrame 
import pandas as pd 
df = DataFrame(list(data)) 


df 
0 4 4 
0 1 luchy 87 
1 2 peter 92 
"ANE lili 85 


图 4.39 ”构造 DataFrame 


另 一 种 方法 则 是 直接 通过 read sq| 函 数 读 取 MySQL 数 据 ， 如 图 4.40 所 示 。 


import pandas as pd 

import pymysql 

conn = pymysql. connectí 
host= localhost’, 
user-' root’, 
passwd- 123456 ， 
db= mydb ， 
port-3308, 
charset-'utf&8') 

df = pd.read sql select * from chdex?, conn) 

df 


id name grade 
0 1 luchy a7 
1 2 peter 92 
ed lili 85 


64.40 读 取 MySQL 数 据 


通过 to_sql 函 数 实现 DataFrame 数 据 存储 为 MySQL 数 据 ， 首 先 查看 to_sq| 的 参数 : 























Q 


f.to sql (name, con, flavor-None, schema-None, if exists-'fail', index-True, 
index label-None, chunksize-None, dtype-None) 





其 中 : 

.name 参数 为 存储 的 表 名 ; 

.con 参数 为 连接 的 数据 库 ; 

.if_exists 参 数 用 于 判断 是 否 有 重复 表 名 。 其 中 ，fail 表 示 如 果 有 重复 表 名 ， 就 不 保存 ; teplace 表 示 替 换 重 复 表 名 ; append 表 示 在 该 表 中 继续 插入 数据 。 
QE: 新 版 pandas 中 ，con 参 数 不 能 使 用 pymysql 连 接 数据 库 。 


使 用 下 面 代码 完成 数据 库 的 存储 ， 结 果 如 图 4.41 所 示 。 


df.to sql (name-'out6',con-'mysql*pymysql://root:123456810calhost:3306/ 
mydb?charset-utf8',if exists-'replace',index-False) 


























G con 参 数 是 固定 写法 ， 读 者 记 住 即 可 。 


rows in set €H.BHHBH 





E441 存储 数据 


互联 网 时 代 ， 网 络 上 每 天 都 会 产生 大 量 的 非 结构 化 数据 ， 如 何 从 这 些 非 结构 化 数据 中 提取 有 效 的 信息 进行 分 析 呢 ?本 节 将 介绍 如 何 使 用 pandas 读 取 HTML 表 格 中 的 数据 ， 以 及 网 络 数据 读 取 的 简单 思 
路 。 


对 于 HTML 网 页 中 的 表格 数据 ， 使 用 pandas 中 的 read_html 函 数 就 可 以 轻松 地 获取 ， 如 图 4.42 所 示 为 2014 年 世界 杯 的 赛程 数据 ( ) 。 





415 


065813B 星期 五 04:00 


06 月 14 日 星期 六 00:00 


06 月 14 日 EFX 03:00 


06 月 14 日 ER 06:00 


06 月 15 日 星期 日 00:00 


06 月 15 日 星期 日 03:00 


可 以 通过 read_html 函 数 来 读 取 这 些 数据 ， 如 图 4.43 所 示 。 


import pandas as pd 


df = pd.read html( http: //worldcup. 2014. 163. com/ 


df 


Unnamed: 0 Unnamed: 1 


O 0 -2320 c4 coron oO 


NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 


球员 排行 


Al-A4 巴西 3-1 克罗地亚 22:00-04:00 ZRS 
A3-A2 Z755 1-0 喀麦隆 22:00-00:00 RIER 
B1-B4 西班牙 1-5 荷兰 22:00-03:00 萨尔瓦多 
B2-B3 智利 3-1; EX IJ 22:00-06:00 EVE 
C1-C4 哥伦比亚 3-0 9688 22:00-00:00 D 9s 
D1-D3 乌拉圭 1-3 FMA 22:00-03:00 UBER 


图 4.42 HTML 表 格 


时 间 


oeHisEH 星期 五 04: 
o6Hi4H 星期 六 00: 
o6Hi4H 星期 六 03: 
o6Hi4H 星期 六 oe: 
oeHisH 星期 日 00: 
o6HisH 星期 日 03: 


06 月 15 日 年 期 日 
06 月 15 日 星期 日 
06 月 16 日 星期 一 
o6HieH 旦 期 一 
o6HieH 旦 其 一 
06 月 1? 日 星期 二 
06 月 17 日 星期 二 
06 月 17 日 年 期 二 
06HisH 生 期 二 
06 月 18 日 年 期 二 
06 月 18 日 星期 三 


chedule/ ) 


H5 


ÀA1-A4d 
À3-À2 
B1-B4 
bBZ-B3 
C1-C4d 
D1-D3 
D2-D4 
C2-C3 
E1-E2 
E4-E3 
F1-F4 
G1-G4 
F3-F2 
G2-G3 
H1-H2 
À1-À3 
H4-H3 


图 4.43” 读 取 HTML 表 格 1 


对 了 车 S 
巴西 3-1 ASWI 
Ag 1-0 喀麦隆 
西班牙 1-5 {= 
智利 3-1 澳 太 利 亚 
哥伦比亚 3-0 3588 


对 比 中 心 


CCTV5 


CCTV5 


CCTV5 


CCTV5 


CCTV5 


CCTV5 


SWE 1-3 哥斯达黎加 


英格兰 ”1-2 ARI 
科特迪瓦 2-1 日 本 
瑞士 21i JEMZ?R 
法 国 3-0 Haphit 
阿根廷 “2-1 HE 
德国 4-0 葡萄 牙 
{PRA 0-0 尼日利亚 
加 纳 1-2 美国 


比利时 2-1 阿 未 及 梓 王 


巴西 ”0-0 A3 
俄罗斯 1-1 韩国 


从 图 4.43 中 可 以 看 出 ， 返 回 的 结果 是 列表 结构 ， 每 个 元 素 相当 于 一 个 表格 数据 ， 通 过 df[0] 可 读 取 第 一 个 表格 数据 ， 如 图 4.44 所 示 。 


eum: 读 取 时 可 能 会 出 现 一 些小 问题 ， 读 者 可 以 自行 修改 。 





df [0] 


Unnamed: 0 Unnamed: 1 


时 间 
06 月 13 日 ÆA 04:00 
06 月 14 日 星期 六 00:00 
06 月 14 日 星期 六 03:00 
06 月 14 日 星期 六 06:00 
06 月 15 日 星期 日 00:00 
06 月 15 日 Æ 03:00 
06 月 15 日 星期 日 06:00 
06 月 15 日 Æ8 09:00 
06 月 16 日 星期 一 00:00 
06 月 16 日 EER— 03:00 
06 月 16 日 &E8— 06:00 
06 月 17 日 星期 二 00:00 
06 月 17 日 星期 二 03:00 
06 月 17 日 星期 二 06:00 


编号 
A1-A4 


对 阵 
巴西 3-1 克罗地亚 
ES 1-0 喀麦隆 

EHZ 1-5 52 
智利 3-1 BAAT 
哥伦比亚 3-0 希腊 

GHE 1-3 哥斯达黎加 
zB 1-2 意大利 
科特迪瓦 2-1 日 本 
E 2-1 厄瓜多尔 
法 国 3-0 洪都拉斯 
阿根廷 2-1 RE 

德国 4-0 S57 

伊朗 0-0 尼日利亚 
加 纳 1-2 美国 


NaN 1 场 
2 场 
3 场 
4 场 
NaN 5 场 
NaN 7 场 
8 场 
615 
915 


NaN A3-A2 


NaN B1-B4 
NaN B2-B3 
C1-C4 
D1-D3 
NaN D2-D4 
NaN 62.63 
NaN E1-E2 
NaN E4-E3 
NaN F1-F4 
NaN G1-G4 
NaN F3-F2 


NaN G2-G3 


KEj4.44  iEXXHTML 表格 2 


44.2 WER 


并 非 所 有 的 网 络 数据 都 存储 在 HTML 表 格 中 ， 这 时 就 需要 通过 网 络 怜 虫 来 获取 所 需 数 据 了 ， 而 Python 提供 了 多 种 好 用 的 第 三 方 库 来 实现 网 络 聆 虫 。 因 本 书 并 不 是 一 本 教 读者 网 络 聆 虫 的 书籍 ， 因 此 这 里 


只 是 提供 读者 网 络 肛 虫 到 存储 为 DataFrame 数 据 格式 的 过 程 和 思路 。 


其 实 思 路 很 简单 ， 对 把 虫 过 后 的 数据 简单 处 理 为 DataFrame 构 造 器 可 识别 的 数据 类 型 即 可 。 下 面 以 酷 狗 榜 单 中 酷 狗 TOP500 的 音乐 信息 为 例 (http://www.kugou.com/yy/rank/home/1- 


8888.html) ， 疏 取 内 容 如 图 4.45 所 示 。 


补 眠 时 刻 
22:00-04:00 
22:00-00:00 
22:00-03:00 
22:00-06:00 
22:00-00:00 
22:00-03:00 
22:00-06:00 
22:00-09:00 
22:00-00:00 
22:00-03:00 
22:00-06:00 
22:00-00:00 
22:00-03:00 
22:00-06:00 


城市 
Em 
FHER 
FERRE 
STE 


neat 


EEA 
REF 
巴西 利 亚 
阿 蛋 格 里 者 
里 约 热 内 卢 













































































人 取代 码 如 下 : 
01 import requests 
02 from bs4 import BeautifulSoup # 导 入 相应 的 库 文 件 
03 data = [] 
04 wb data = requests.get ('http://www.kugou.com/yy/rank/home/1-8888.html') 
05 soup = BeautifulSoup (wb data.text,'lxml') 
06 ranks — soup.select('span.pc temp num') 
07 titles = soup.select('div.pc temp songlist > ul > li > a!) 
08 times = soup.select('span.pc temp tips r > span') 
09 for rank,title,time in zip(ranks,titles,times): 
10 a T 
11 'rank':rank.get text().strip(), 

2 'singer':title.get text().split('-')[0], 
13 'song':title.get text().split('-')[1], 
14 'time':time.get text().strip() 
15 j 

6 data.append (a) PERZ 
7 data 





热门 榜 单 RÉXSJTOP500 


D Sese 


[8 20 0] 10 7 


iy RAITS Im Xu AR 


BI] Das 

SESS (| 2. tit - 拥抱 你 高 去 
Q 欧美 新 焉 榜 

n sm 

图 aas 

XA uude 


HEGE ze um 





图 4.45 KRAF 
公 注 意 : 关于 爬虫 代码 这 里 不 做 过 多 解释 ， 读 者 主要 明白 读 取 网 络 数据 的 思路 即 可 。 


结果 如 图 4.46 所 示 ， 该 数据 类 型 可 传 入 到 DataFrame 构 造 器 中 。 


, singer : "Xd ', song’: ' 找 们 不 一 样 ， ^time : ' 
singer : 'SKJLAL ^, "song': ”拥抱 你 高 去 time: 
' singer! : "fx. aem i 'song : ' ;/m;p , tine : 
'singer : HE : ”成 都 ' "time' : ' 5:28], 
' singer’: `$ ; "27 GBDRZOERÁÍT , ^time': '3:46/], 
'singer!': EFEX., EFR 7. 'song': 7 远 走 高 飞 " "time: 3:558], 
'singer': PHARRR ., song: ” — RS (^, "tine: '" 4:15], 
'singer': EAD ', 'song': l F (Live)', 'time': '2:59'], 
'singer': '&'pLJL', 'song': ' BHE, " time’: " 3:55], 
'singer': ' '. ^song : ， 像 我 这 样 的 人 (Live), "time : ' 2:51], 
' singer : ;TT song: ' 80000 !, "time : '1:48], 
3. E. i5 v) 5.3 A SL: 3. SALADS 
singer : song : ” RAIRE, "time: ' 4:02], 
’ singer’: CG’, "song! : ^ X9 , "time: ’ 3:20], 
8 5. 57k T AZ 2d "Gne Jal). !43.1409? 
singer': 'ZEX B, "song : ' Bh RR DR , time: "3:19 ], 
'singer': RMF 7, "song: ” 鸭 号 蒂 克 的 爱情 ' time: 3:29], 
'singer': 'Alan Walker °, 'song': ' Faded', a "drag" Fa 
'singer': ' TEES 7, "song : " EAI, tme: 3:54 
3 . 3 3 3 3 3 3 3 3 . 3 
singer : Matteo `, song : Panama , time : 3:20 
'singer': FE a 'song : ' MES K, 'tine' : “4: 
md: 
tg 
3 


o 


F 
’ singer’: ` Beyond ', song’: ' ABAS, 'tinme': "E 
' singer’: AAi ^, " song : ”告白 气球 : 'tine: ] 
' singer': “黑龙 x song : ' gb , " time: ' 3:34] 


3 


AT 
|; 
1' 
2 
6 


3 





0 
1 
3 
] 


图 4.46 JJ ACE 


把 爬 取 的 数据 传 给 DataFrame 构 造 器 ， 如 图 4.47 所 示 。 


from pandas import DataFrame 
df = DataFrame (data) 
df 
rank singer song time 
KI 大 壮 我 们 不 一 样 4:31 
1 2 Skikk 拥 提 你 高 去 4:02 
2 3 MFS. SERE imum 95:33 
3 4 ÈS 成 都 528 
JE. me 壳 你 去 旅行 3:46 
: 6 SN. HEE mak 355 
6 7 PAAK —REET 415 
7 8 毛 个 号 iB (Live) 2:59 
8 9 JL 追 光 者 “3:55 
9 10 FS GRA (Live) 2:51 
10 11 PRC 已 言 汗 80000! 1:48 
11 12 EE 最 美 情 但 ”4:02 
12 13 CG E 320 
13 14 FEMI Mir 319 


图 4.47  DataFrame Zt 4 


第 ?5 章 ”数据 清洗 与 整理 


有 效 的 数据 是 进行 数据 分 析 的 依据 ， 因 此 在 数据 分 析 中 ， 数 据 的 处 理 往往 需要 人 花费 70% 的 时 间 ， 可 见 数据 处 理 的 重要 性 。 本 章 将 讲解 在 pandas 中 如 何 进行 多 数据 清洗 和 处 理 ， 并 介绍 针对 多 源 数据 的 合 
并 和 连接 ， 以 及 数据 的 重 塑 等 内 容 ， 最 后 通过 一 个 综合 示例 ， 让 读者 学 会 数据 分 析 中 的 数据 清洗 方法 。 


下 面 给 出 本 章 涉及 的 知识 点 与 学 习 目 标 。 
pandas 数 据 清 洗 : 学 会 常见 的 数据 清洗 方法 。 
“ 数据 合并 : 学 会 多 源 数据 的 合并 和 连接 。 


C 数据 重 塑 : 针对 层次 化 索引 ， 学 会 stack 和 unstack 的 使 用 。 


- 字符 串 处 理 : 学 会 DataFrame 中 字符 串 邓 数 的 使 用 。 


5.1 Zi 


现实 中 通过 各 种 方式 收集 到 的 数据 都 是 “及 脏 ” 的 。 本 节 将 着 重 讲解 数据 清洗 的 工作 ， 如 缺失 值 的 处 理 、 重 复数 据 的 处 理 及 如 何 蔡 代 值 等 具体 操作 。 


5.1.1 ”处 理 缺失 值 


有 时 由 于 设备 原因 (设备 故障 或 无 法 存 入 数据 等 ) 或 人 为 原因 (没有 录入 或 故意 隐藏 数据 等 ) ， 我 们 获取 的 部 分 数据 可 能 是 缺失 值 。 这 些 缺 失 值 对 于 数据 分 析 而 言 是 没有 任何 意义 的 ， 需 要 通过 程序 处 
理 掉 这 些 缺 失 值 ， 以 便 下 一 步 分 析 。 


1. 侦查 缺失 值 


通过 人 工 查看 DataFrame 数 据 是 否 有 缺失 值 的 方法 是 很 低 效 的 。 尤 其 当 数据 量 大 时 ， 人 工 查看 很 耗 时 间 。 通 过 isnull 和 notnul 方 法 ， 可 以 返回 布尔 值 的 对 象 ， 如 图 5.1 和 图 5.2 所 示 。 


这 时 通过 求 和 可 以 获取 每 列 的 缺失 值 数量 ， 青 通过 求 和 就 可 以 获取 整个 DataFrame 的 缺失 值 数 量 ， 如 图 5.3 所 示 。 


from pandas import Series,DataFrame 
import pandas as pd 
import numpy as np 


dfl = DataFrame([[3, 5, 3], [1, 6, np. nan], 
[ lili ,np.nan, pop l],lnp.nan, a, b ]l]) 


dfi 





图 5.1 创建 有 缺失 值 的 DataFrame 


dfl.isnullO £7rueg4279$€ 4E 


0 1 2 
0 False False False 
1 False False True 
2 False True False 


3 True False False 


dfl.notnull())  . £False/v$€ 3648 


0 1 2 
0 True True True 
1 True True False 
2 True False True 


3 False True True 


图 5.2 查看 缺失 值 


通过 info 方 法 ， 也 可 以 看 出 DataFrame 每 列 数据 的 缺失 值 情 况 ， 如 图 5.4 所 示 。 


dfil.isnullí).sumí) 


dtype: int64d 


dfl.isnull().sum(). sum() 


: 





图 5.3 & X4 it 


dfi. info() 


<class 'pandas.core.frame.DataFrame'? 
Rangelndex: 4 entries, Ô to 3 
Data columns (total 3 columns): 


Ó J non-null object 

1 J non-null object 

à Jj non-null object 
dtypes: object(3) 

memory usage: 176.0t bytes 





图 5.4 通过 info 方 法 查看 缺失 值 


2. 删除 缺失 值 


在 缺失 值 的 处 理 方法 中 ， 删 除 缺失 值 是 常用 的 方法 之 一 。 通 过 dropna 方 法 可 以 删除 具有 缺失 值 的 行 ， 如 图 5.5 所 示 。 


df1. dropna() 


D» Y 4 





图 5.5 删除 缺失 值 行 


传 入 how=” al ， 则 只 会 删除 全 为 NaN 的 那些 行 ， 如 图 5.6 所 示 。 


df2 = DataFrame (np. arange (12). reshape (3, 4)) 
df2 


p^ E 3 
8 ST £ 4 
Sox 0 7 
2 8 9 10 11 


df2.ix[2, :] = np. nan 
df2[3] = np. nan 
df 2 


0 1 2 3 
0 00 10 20 NaN 
1 40 50 60 NaN 
2 NaN NaN NaN NaN 


df2. dzopnalhow=” all’ ) 


9 S 4 j 
0 00 10 2.0 NaN 
1 40 50 60 NaN 


图 5.6 ”删除 全 为 NaN 的 行 


如 果 需 要 删除 列 ， 则 指定 轴 方 向 即 可 ， 如 图 5.7 所 示 。 


df2. dropnalhow-' all', axis-1) 


0 2 


10 240 


0 00 


1 40 50 620 


2 NaN NaN NaN 


图 5.7 删除 全 为 NaN 的 列 





3. 填充 缺失 值 
当 数 据 量 不 够 或 许 其 他 部 分 信息 很 重要 的 时 候 ， 就 不 能 删除 数据 了 ， 这 时 就 需要 对 缺失 值 进 行 填充 。 通 过 fillna 方 法 可 以 将 缺失 值 蔡 换 为 常数 值 ， 如 图 5.8 所 示 。 


df < 


0 1 2 j 
0 00 10 20 NaN 
1 40 50 60 NaN 
2 NaN NaN NaN NaN 


df2.fillna(0) 


E S Jg 3 
0 00 10 20 00 
1 40 50 60 00 
2 00 00 00 00 


图 5.8 填充 缺失 值 


在 fillna 中 传 入 字典 结构 数据 ， 可 以 针对 不 同 列 填 充 不 同 的 值 ， 介 na 返回 的 是 新 对 象 ， 不 会 对 原 数据 进行 修改 ， 可 通过 inplace 就 地 进行 修改 ， 如 图 5.9 所 示 。 


df2. fillna(11:6, 3:0]) 


0 1 "A 
0 0010 20 00 
1 4050 650 020 
2 NaN 6.0 NaN 00 


df2 


0 1 2 3 
0 00 10 20 NaN 
1 40 50 60 NaN 
2 NaN NaN NaN NaN 


df2.fillnaí(i1:8, 3:01, inplace-True) 
df2 


0 1 2 3 
0 0010 20 00 
1 40 50 DU UU 
2 NaN 60 NaN 00 


图 5.9 ”针对 不 同 列 填充 不 同 值 


对 重新 索引 (reindex) 中 填充 缺失 值 的 方法 同样 适用 于 fillna 中 ， 如 图 5.10 所 示 。 也 可 以 通过 平均 值 等 作为 填充 数 ， 具 体操 作 如 图 5.11 所 示 。 


df2.fillnalmethod= ffill ) 


D, 3 € a 


0 00 10 20 00 


1 40 50 60 020 
2 40 60 60 00 





dt < 


0 1 £ — d 
0 0010 20 00 
1 4050 60 020 
2 NaN 6.0 NaN 0.0 


df2[0] = df2[0]. fillna(df2[O]. mean Q ) 


0 1 2 3 
0 00 10 20 00 
1 40 50 60 00 
2 20 60 NaN 00 


图 5.11 填充 平均 值 


对 于 fillna 的 参数 ， 可 以 通过 “? ”进行 帮助 查询 ， 这 也 是 自我 学 习 最 好 的 方法 ， 如 图 5.12 所 示 。 


In [32]:  df2.fillna? 


Lo f 


Signature: df2.fillna(value-None, method-Hone, axis-Hone, inplace-False, limit-NHone, downcast-Hone, -^*kwargs) 
Docstring: 
Fill NÀ/NaN values using the specified method 


Parameters 


value : scalar, dict, Series, or DataFrame 
Value to use to fill holes (e.g. 0), alternately a 
dict/Series/DataFrame of values specifying which value to use for 
each index (for a Series) or column (for a DataFrame). (values not 
in the dict/Series/DataFrame will not be filled). This value cannot 
be a list. 

method : [l'backfill', 'bfill', 'pad', 'ffill', None], default None 
Method to use for filling holes in reindexed Series 
pad / ffill: propagate last valid observation forward to next valid 
backfill / bfill: use NEXT valid observation to fill gap 

axis : {0 or 'index', 1 or 'columns'] 





图 5.12 ”查看 帮助 


5.1.2 ” 移 除 重复 数据 


在 息 取 的 数据 中 往往 会 出 现 重复 数据 ， 对 于 重复 数据 保留 一 份 即 可 ， 其 余 的 可 做 移 除 处 理 。 在 DataFrame 中 ， 通 过 duplicated 方 法 判断 各 行 是 否 有 重复 数据 ， 如 图 5.13 所 示 。 


data z K 
e':['SK—', EN, 'SK—', "^ p880 ], 
"ua ip female’, 'male', "female', '"male'], 
'year':[2001, 2002, 2001, 2002], 
| 'eity : LAU", ' E^, "AUR, , "dem" 


dfl = DataFrame (data) 
dfi 


city name sex year 
0 北京 ” 张 二 female 2007 
1 H m male 2002 
2 北京 ” 张 二 female 2001 


3 北京 小 明 male 2002 


dfl. duplicated) 


False 
False 
True 
False 
dtype: bool 


Co P3 e C 


图 5.13 ”查看 重复 值 
通过 drop_ duplicates 方 法 ， 可 以 删除 多 余 的 重复 项 ， 如 图 5.14 所 示 。 


在 这 种 情况 下 ， 当 每 行 的 每 个 字段 都 相同 时 才 会 判断 为 重复 项 。 当 然 ， 也 可 以 通过 指定 部 分 列 作为 判断 重复 项 的 依据 ， 如 图 5.15 所 示 。 


dfl. drop duplicates() 


Sex 
female 
male 


male 


dfl. drop duplicates([ sex,” year’ ]) 


city name sex year 


female 2001 


male 2002 





图 5.15 ”指定 部 分 列 


通过 结果 可 看 出 ， 保 留 的 数据 为 第 一 个 出 现 的 组 合 。 传 入 keep=”′ last” 可 以 保留 最 后 一 个 出 现 的 组 合 ， 如 图 5.16 所 示 。 


df1. drop duplicates([ sex',' year” ],keep= last’ ) 


City sex year 


2 北京 张 二 female 2001 


3 北京 | male 2002 





图 5.16 保留 最 后 出 现 的 组 合 


5.1.3 AE 


替换 值 类 似 于 Excel 中 的 替换 功能 ， 是 对 查询 到 的 数据 替换 为 相应 的 数据 。 在 pandas 中 ， 通 过 replace 可 完成 蔡 换 值 的 功能 ， 如 图 5.17 所 示 。 


也 可 以 同时 针对 不 同 值 进 行 多 值 蔡 换 ， 参 数 传 入 方式 可 以 是 列表 也 可 以 是 字典 格式 ， 如 图 5.18 所 示 。 


data = 1 
"name! :【[ 张 二 ”，’ 李 四 ，’ 王 五 *"，’ 小 明 ' ], 
"sex :[ female', 'male', '', "male'], 
'year':[2001, 2003, 2001, 2002], 
"ci CARP, "DR, 5, HORT 


dfl = DataFrame (data) 
dfi 

city name sex year 
0 ip$5 X= female 2001 
1 上 海 ” 李 四 male 2003 
2 于 五 2001 
3 北京 小 明 male 2002 


df1. replace "",' [4 : 


city name Sex year 
0 北京  3&— female 200: 
1 HSE zu male 2003 
2 不 详 天 五 不 详 2001 


3 北京 ”小明 male 2002 


图 5.17 ”替换 值 


dfi.replace(['',2001], [' 3€ , 2002]) 


city name Sex year 
0 北京 一 female 2002 


male 2003 


不 详 2002 


3 北京 小 明 male 2002 


和 


dfi.replace([" :' [E ,2001:2002]) 


name Sex year 


female 2002 


male 


不 详 


2003 
2002 


ibm 小明 male 2002 
图 5.18 24854 
5.1.4 “利用 函数 或 映射 进行 数据 转换 
在 第 3 章 中 曾 讲 过 函数 应 用 和 映射 内 容 ， 本 节 将 通过 例子 来 讲解 函数 和 映射 在 数据 处 理 中 的 使 用 情况 。 如 图 5.19 所 示 为 某 个 班级 学 生 的 数学 成 绩 表 ， 我 们 定义 一 个 等 级 情况 : 分 数 在 90 ~ 100 之 间 为 优 


秀 ; 分 数 在 70 ~ 89 之 间 为 良好 ; 分 数 在 60 ~ 69 之 间 为 合格 ， 分 数 低 于 60 分 为 不 合格 。 在 Excel 中 ， 通 过 if 国 数 去 实现 分 数 等 级 的 划分 ， 在 pandas 中 定义 好 函数 ， 通 过 map 方 法 也 可 以 实现 同样 的 效果 ， 如 图 
5.20 所 示 。 


uus 对 于 一 列 数据 的 转换 ， 也 可 以 通过 apply 函 数 来 实现 。 


data = | 
nane’ :['SK—'", F, ' ER", "881, 
'math':[79, 52, 63, 92] 


| 
df2 = DataFrame (data) 
df2 





图 5.19 ”数学 成 绩 


def f(x): 
if x >= 90: 
return '135 
elif TOX-x«90: 
return ' 良好 : 
elif 60x70: 
return “合格 : 


df2[ class ] = df2[ math ]」 .map (f) 
dtz 


math name class 





图 5.20 ”有 函数 应 用 


5.1.5. Teu PES EI 


设备 故障 和 人 为 操作 失误 都 会 产生 异常 值 ， 在 数据 分 析 中 ， 通 常会 通过 一 些 可 视 化 的 方法 去 找 离 群 点 ， 这 些 离 群 点 可 能 就 是 


异常 值 。 但 初学 者 一 定 要 注意 : 并 非 所 有 的 离 群 点 都 是 异常 值 ， 需 要 根据 业 


df3 = DataFrame (np. arange(10), columns-[ X ]) 
dfí3U[ Y ]2 2 * df3[ X ] * 0.5 
df3.1iloc [9, 1] » 185 


12.5 
14.5 


16.5 


2 
3 
4 
5 
6 
- 
9 
9 


185.0 


df3.plot/kind- scatter ,x= X ,y= Y 





图 5.21  DataFrame Zt J£ 








图 5.22 ”检查 异常 点 


5.1.6 ”虚拟 变量 


在 数学 建 模 和 机 器 学 习 中 ， 只 有 数值 型 数据 才能 供 算法 使 用 ， 对 于 一 些 分 类 变量 则 需要 将 其 转换 为 虚拟 变量 ( 哑 变 量 ) (EEO, 148) ， 通 过 get_ dumnies 函 数 即 可 实现 该 功能 ， 如 图 5.23 所 示 。 


df = DataFrame (i 
"BIS? URSI BISLURSI EIC 
' HRE : [1200, 21006, 2300, 2900, 1400] 


1) 
df 

(fta Hm 
0 1200 东 
1 2100 mE 
2 2300  & 
3 2900 Æ 
4 1400 it 


pd. get dummies(df['$H[s]| ]) 


东北 南西 
© Tt © G 0 
r0 w Lou 
E T 0 g 
3 wow 1 
a GO LB 


图 5.23 ”创建 虚拟 变量 


如 图 5.24 所 示 ， 对 于 多 类 别 的 数据 而 言 ， 需 要 通过 apply 函 数 来 实现 。 具 体操 作 如 图 5.25 所 示 。 


df2 = DataFrame(l 
"Sia : DR 2E Ma Fo MAC 3E 1, 


:价格 * : [1200, 2100, 2300, 2900, 1400] 





图 5.24 多 类 别 的 数据 


dummies = df2[' ġa} ]. apply (lambda x:Series (x. split /)).value counts) 
dummies 


东 d e B 
1.0 NaN NaN 

10 10 

NaN NaN 

10 NaN 10 

1.0 NaN NaN 


= dummies. fillna(0). astype lint) 





图 5.25 ”创建 虚拟 变量 


5.2 ”数据 合并 和 重 塑 


在 实际 的 数据 分 析 工 作 中 ， 可 能 有 不 同 的 数据 来 源 ， 这 时 需 通过 合并 等 操作 对 数据 进行 处 理 。 本 节 将 讲解 pandas 中 的 数据 合并 和 重 塑 。 


5.2.1 merge 合 


merge 国 数 是 通过 一 个 或 多 个 键 (DataFrame 的 列 ) 将 两 个 DataFrame 按 行 合 并 起 来 ， 其 方式 与 关系 型 数据 库 一 样 。 首 先 来 看 一 个 简单 的 例子 ， 数 据 情况 如 图 5.26 所 示 。 


price = DataFramer{ 
"fruit :[ apple , banana , ` orange’ ], 
' price’ : [23, 32, 45] 
1) 
amount = DataFrame!i 
'fruit':[ apple , banana , apple , apple’, banana , pear ], 
' amount’ : [5, 3,6, 3, 5, 7] 
D 


price 


fruit price 
0 apple 23 
1 banana 32 


2 orange 45 


amour 
amount fruit 
0 5 apple 
1 3 banana 
2 5 apple 
3 3 apple 
4 5 banana 


图 5.26 ”数据 情况 


这 是 多 对 一 的 合并 情况 ， 合 并 结果 如 图 5.27 所 示 。 


pd. merge (amount, price) 


amount fruit price 
apple 23 
apple 23 


Danana 32 


5 
6 
3 | apple 23 
3 
5 


banana 32 





图 5.27 内 连接 


由 于 两 个 DataFrame 都 有 fruit 列 名 ， 所 以 默认 按 该 列 进行 合并 。 当 然 ， 也 可 以 指定 键 名 ， 如 果 两 个 DataFrame 的 列 名 不 一 样 ， 也 可 以 单独 指定 ， 如 图 5.28 所 示 。 


pd. merge(amount, price, on= fruit ) 


amount fruit price 


0 5 apple 23 
1 5 apple 23 
2 3 | apple 23 
3 3 banana 32 
- 5 banana 32 


pd. mnerge(amount, price,left on-' fruit ,right on-' fruit ) 


amount fruit price 
0 5 apple 23 
1 5 apple 23 
2 3 apple 23 
3 3 banana 32 
4 5 banana 32 


图 5.28 指定 连接 键 


通过 图 5.27 可 以 看 出 ，merge 默 认为 内 连接 (inner) ， 也 就 是 返回 交集 。 通 过 how 参 数 可 以 选择 连接 方法 : 左 连 接 (left) 、 右 连接 (right) 和 外 连接 (outer) ， 如 图 5.29 和 图 5.30 所 示 。 


pd merge lamant, price, how left’) 


gui 4» O N 


amount 


5 
3 
6 
3 
5 
7 


fruit 


apple 
banana 
apple 
apple 


banana 


pear 


price 


23.0 
32.0 
23.0 
23.0 
32.0 
NaN 


pd. merge (amount, price, how right’) 


Qi A C N 


amount 


5.0 
6.0 
3.0 
3.0 
5.0 
NaN 


fruit price 
apple 23 
apple 23 
apple 23 
banana 32 
banana 32 
orange 45 


图 5.29 


左 、 右 连接 


pd. merge (amount, price, how outer’ ) 


amount fruit price 
5.0 | apple 230 

5.0 apple 230 

3.0 apple 230 

30 banana 32.0 

5.0 banana 32.0 

7 pear NaN 
NaN orange 450 





图 5.30 ”外 连接 


多 对 多 的 连接 会 产生 笛 卡 尔 积 ， 如 图 5.31 所 示 。 左 边 的 DataFrame 有 3 个 apple， 右 边 有 2 个 apple， 这 样 连接 的 DataFrame 就 有 6 个 apple， 如 图 5.32 所 示 。 


amourt 2 


amount fruit 
0 5 apple 
1 3 banana 
2 6 apple 
j 3 | apple 
4 5 banana 
5 7 pear 
price2 


fruit price 
0 — apple 23 
1 banana 32 
2 orange 45 
3 | apple 25 


图 5.31 多 对 多 数据 


当然 ， 也 可 以 通过 多 个 键 进行 合并 ， 即 传 入 一 个 list 即 可 ， 如 图 5.33 所 示 。 


pd. merge (amount2, price2) 


amount fruit price 
0 apple 23 
1 apple 25 


apple 23 


apple 23 


2 

5 

5 

6 X apple 29 
3 

3 | apple 29 
3 


banana 32 


cn 


Danana 32 


key1 key2 vall 


key1 key2 val2 


0 one a 2 
1 one a 5 
2 two a 7 
3 two b 8 


pd. merge left, right, on-[ keyl' ,'key2'], how= outer’ ) 


Key1 key2 vall val2 
0 one a 20 50 
1 one a 20 60 
2 one b 30 NaN 
3 two a 40 70 
4 two b NaN 80 


图 5.33 ”多 键 连接 


在 合并 时 要 考虑 到 重复 列 名 的 问题 ， 如 图 5.34 所 示 。 昌 然 可 以 人 为 进行 重复 列 名 的 修改 ， 但 merge 函 数 提供 了 suffixes 用 于 处 理 该 问题 ， 如 图 5.35 所 示 。 


pd. nerge(left,right, on= keyl ) 


key1 key2 x vall key2 y valz 


one a 2 a 2 
one a a 


one 





图 5.34 ”重复 列 名 默认 处 理 
pd.merge(left,right,on- keyl , suffixes=( left ,” Tright )) 


key1 key2 left vali key2 right val2 


one d | d 


one a r, a 


one E 





图 5.35 重复 列 名 处 理 


有 时 连接 的 键 位 于 DataFrame 的 行 索 引 上 ， 可 通过 传 入 left_index=True 或 者 right_index=True 指 定 将 索引 作为 连接 键 来 使 用 ， 如 图 5.36 和 图 5.37 所 示 。 


left2 


key vall 


0 a 

1 a 

2 D 

3 D 

4 C 

rightZ2 
val2 

a 5 


0 


1 


pd. merge left2,right2,left on- key ,rieht index=True) 


key vali valz 


Ü 2 


1 





图 5.37 索引 作为 连接 键 


DataFrame 中 有 一 个 join 方法 ， 可 以 快速 完成 按 索 引 合并 ， 如 图 5.38 所 示 。 


val1 


left3. join right3,how- outer ) 


vali val? 


C 3 NaN 


图 5.38 join 实例 方法 


通过 以 上 的 案例 ， 总 结 merge 使 用 的 常用 参数 如 表 5.1 所 示 。 


表 5.1 merg kğ MAk 


2 Z7 使 用 说 明 
left 参与 合并 的 左 侧 DataFrame 
right 参与 合并 的 右 侧 DataFrame 
how 连接 方法 : inner. left, right. outer 
on 用 于 连接 的 列 名 
left on 左 侧 DataFrame 中 用 于 连接 键 的 列 
right on 右 侧 DataFrame 中 用 于 连接 键 的 列 
left index 左 侧 DataFrame 的 行 索引 作为 连接 键 
right index 右 侧 DataFrame 的 行 索引 作为 连接 键 
sort 合并 后 会 对 数据 排序 ， 默 认为 True 
suffixes 修改 重复 名 


5.2.2 concatjž 


如 果 需 要 合并 的 DataFrame 之 间 没 有 连接 键 ， 就 不 能 使 用 merge 方 法 了 ， 这 时 可 通过 pandas 的 concat 方 法 实现 。 如 图 5.39 所 示 为 3 个 没有 相同 索引 的 Series， 使 用 concat 连 接 ， 会 按 行 的 方向 堆 寺 数 
据 。 


默认 情况 下 ，concat 是 在 axis=0 上 工作 的 ， 当 然 通 过 指定 轴 向 也 可 以 按 列 进行 连接 ， 如 图 5.40 所 示 。 


sl = 
32 
z3 


pd. concat {[s1, s2, s3] ) 


5 
dtype: int64d 





图 5.39  concatikj£ 


pe. PARCAT ( [s1, S2, s3], axis-1) 


d 
e 


f 


这 样 就 会 生成 一 个 DataFrame。 通 过 结果 可 以 看 出 ， 这 种 连接 方式 为 外 连接 (HE) 


NaN 


NaN 


Qm: concat 只 有 内 连接 和 外 连接 。 


3.0 
NaN 
NaN 


可 以 通过 join_axes 指 定 使 用 的 索引 顺序 ， 如 图 5.42 所 示 。 


NaN 
4 0 
5.0 


图 5.40 ” 按 列 连接 


， 通 过 传 入 join=”′ inner 可 以 实现 内 连接 ， 如 图 5.41 所 示 。 


sd = pd.concat([si*10, s3]) 


sá 

a Q 
b 10 
e d 
f T 


dtype: int64 


pd. concat ( [s1, s4], axis=1) 


o vc DÒ 
c. 
n = 
A cC 
— 10 
Or. āe O O 


pd. concat([s1, sd], axis=1, join= inner ) 


0 1 
a 0 0 
b 1 10 


图 5.41 内 、 外 连接 


pd. concat([s1, s4], axis-1, join-' inner") 





图 5.42 ”指定 索引 顺序 


参与 连接 的 数据 对 象 在 结果 中 是 分 不 开 的 ， 可 通过 keys 参 数 给 连接 对 象 创建 一 个 层次 化 素 引 ， 如 图 5.43 所 示 。 


pd. concat([31, s4]) 


rm pla o, 


rh ea OC o um 
pL 
C 


5 
dtype: int64 


pd. concat([s1, sd], keys=[ one ，two ]) 


one a Ó 
b T 
two a o 
b 10 
- 4 


f 5 
dtype: lnt6d 


图 5.43 ”层次 化 索引 


如 果 按 列 连 接 ，Kkeys 就 成 了 DataFrame 的 列 索引 ， 如 图 5.44 所 示 。concat 连 接 对 于 DataFrame 是 同样 适用 的 ， 如 图 5.45 所 示 。 


pd. concat([s1, sd], axis=1, keys= [° one',' two! ]) 





图 5.44 ”转换 为 列 索引 


dfi 


val1 
a 0 
b 1 


valz 
a 5 
D 7 


pd. concat([df1, df2], axis-l,keys-[ one ,' two ]) 


one two 
vali val2 
d 0 50 


D 1 T .0 
C 2 NaN 


图 5.45 DataFrame #4} 


除了 传 入 列表 ， 通 过 字典 数据 也 可 以 完成 连接 ， 字 典 的 键 就 是 keys 的 值 ， 如 图 5.46 所 示 。 


pd. concat (1 one :df1,” two :df2], axis-1) 


one two 
vali val2 
Ü 50 
7.0 

2 NaN 





图 5.46” 传 入 字典 结构 


如 图 5.47 所 示 ， 当 行 素 引 类 似 时 ， 通 过 默认 连接 会 出 现 重复 行 索引 。 这 时 可 通过 ignore index= 'True' 忽略 索引 ， 以 达到 重 排 索引 的 效果 ， 如 图 5.48 所 示 。 


= DataFrame í(np.random.randní3,4), columms=[a，b，c，d|j 
DataFrame np. random. randn (2, 2), columns-[ d',' c']) 


a b C d 
0 0.023541 -0.694903 -0.515242 0.460737 
1 -1.326048 0.259269 -0.685732 0.052237 
2 -0.110079 2.729854 -0.503138 -1.721161 


df 2 


d C 


0 0.995995 -0.342845 
1 0.848536 1.027354 





图 5.47  DataFrame Zt J£ 


pd. concat ( [df1, d£2]) 


a b C d 
0 0023541 -0.694903 -0.515242 0.460737 
1 -1.326048 0.259269 -0.685/32 0.052237 


2 -0.110079 2.729854 -0.503138 -1.721161 
0 NaN NaN -0.342845 0.995995 
1 NaN NaN 1.027354 0.848530 


pd. concat([dfl1, df2], ignore index-True) 


a b C d 
0 0.023541 -0.694903 -0.515242 0.460737 
1 -1.326048 0.259269 -0.685732 0.052237 


2 -0.110079 2.729854 -0.503138 -1.721161 
3 NaN NaN -0.342845 0.995995 
E NaN NaN 1.027354 0.848530 


图 5.48 忽略 索引 
5.2.3 combine first 合 并 


如 图 5.49 所 示 ， 如 果 需 要 合并 的 两 个 DataFrame 存 在 重复 的 索引 ， 在 这 种 情况 下 ， 若 使 用 merge 和 concat 方 法 都 不 能 准确 地 解决 问题 ， 此 时 就 需要 使 用 combine first 方 法 ， 该 方法 类 似 于 “ 打 补 
本 ”， 如 图 5.50 所 示 。 


dt1 


3 NaN NaN 


dtz 


和 
G3 


df1. combine first(df2) 





1 10 40 


图 5.50 combine first-&-JfF 


5.2.4 ”数据 重 塑 


数据 重 塑 用 于 重 排 DataFrame， 有 两 个 常用 的 方法 : stack 方 法 用 于 将 DataFrame 的 列 “ 旋 转 ”为 行 ; unstack 方 法 用 于 将 DataFrame 的 行 “旋转 ”为 列 。stack 方 法 的 具体 用 法 如 图 5.51 所 示 。 


dt = DataFrame np. arange(9).reshape(3, 3), 
index = La, b, e], 
columns-[ one ， two," three" ]) 

df.index.name = 'alph 

df. columns. name = * number? 


df 


number one two three 


alph 


result = df.stack() 
result 


alph number 
a one 
two 
three 
b one 
two 
three 
C one 
two 
three 
dtype: int32 


图 5.51 stack Zr iA 


将 列 转换 为 行 后 ， 则 生成 了 一 个 Series 数 据 ， 通 过 unstack 又 会 将 其 重 排 为 原始 数据 的 形式 ， 如 图 5.52 所 示 。 


result. unstack} 


number one two three 


alph 





图 5.52 unstack Zi ;& 


默认 情况 下 ， 数 据 重 塑 的 操作 都 是 最 内 层 的 ， 也 可 以 通过 级 别 编号 或 名 称 来 指定 其 他 级 别 进行 重 塑 操作 ， 如 图 5.53 所 示 。 


result.unstack (0) 


alph a b c 
number 
one 0 3 6 | 
two 1 4 7 
three 2 5 8 


result. unstack alph ) 


alph & Bc 
number 
one 0 3 65 
two 1 4 7 
three 2 5 8 


图 5.53 指定 级 别 


不 仅 数据 重 塑 的 操作 是 最 内 层 的 ， 操 作 的 结果 也 会 使 旋转 轴 位 于 最 低级 别 ， 如 图 5.54 和 图 5.55 所 示 。 


df = DataFrame np. arange (16). reshape (4, 4), 
index-[[ one, one ," two," two ], 2," ,a, v ]], 
columns-[[ apple',' apple ',' orange! ,' orange’ ], L red,” green, red," green! 1]? 


apple orange 


red green red green 





图 5.54 ”数据 情况 


df. stack í) 


apple orange 


one a green 1 3 
red Ü 2 
b green 5 T 
red 4 5 
two a green g 11 
red 8 1 
b green 13 15 
red 12 14 
df. unstack () 
apple orange 
red green red green 


a b ab aba D 


图 5.55” 重 塑 结果 


5.3 ”字符 串 处 理 


在 数据 分 析 中 常常 会 处 理 一 些 文本 数据 ，pandas 提 供 了 处 理 字符 串 的 矢量 化 函数 。 本 节 将 讲解 字符 串 矢 量化 函数 的 使 用 方法 。 


5.3.1 FREDA 


如 图 5.56 所 示 ， 把 数据 分 成 两 列 ， 常 用 的 方法 是 通过 函数 应 用 来 完成 。 


data = 1 


"data :['8K— [9^ , "zEDu|lzz, EAI, "^88 





23], 


df = DataFrame(data) 


df 

data 
0 S 
1 $m 
2 hik 
3 S 


result = df[ data’ ]. apply (lambda x:Seriesíx.split( |'))) 
result 


B i 
0 张 三 sm 
1 李 四 女 
2 FA 女 
3 小 明 S 


图 5.56 ”有 函数 应 用 


pandas 中 字段 的 str 属 性 可 以 轻松 调用 字符 串 的 方法 ， 并 运用 到 整个 字段 中 (矢量 化 运算 ) ， 如 图 5.57 所 示 。 


new df = df[ data’ ]. str. split |^) 
new df 


L]BB, 88] 


Name: data, dtype: object 


df[ name] = new df. str [0] 
df[ sex’ ] = new df.str[1] 
df 








data name sex 
1 李 四 女 xm x 
t Thi EFE K 
J 小 明 | 男 JE 58 


图 5.57 ”字符 串 方 法 


5.3.2 ”正则 表达 式 


字符 串 的 矢量 化 操作 同样 适用 于 正则 表达 式 ， 如 图 5.58 所 示 。 


df2 = DataFrame (1 

”email :[ 102345@aqq. com , 342167@qq. com , 65132@qg. com ] 
1) 
df2 


email 
0 102345(9qq.com 
1 342167(9qq.com 
2 ) 65132()qq.com 


df2[ email'].str.findall( (.*?)@ ) 


Y [102345] 
1 [342167] 
2 [65132] 


Name: email, dtype: object 


df2[ Ag] = af2[ email'].str.findall( (.*7)&).str.get(O) 
df 2 


email QQ 
0 102345(])qq.com 102345 
1 342167(pqq.com 342167 
2 65132@qq.com 651322 


图 5.58 正则 表达 式 





5.4” 绪 合 示例 一 一 lris 数 据 集 


本 节 将 以 修改 过 的 Iris 数据 集 为 例 ， 主 要 讲解 数据 分 析 中 数据 预 处 理 的 详细 操作 ， 并 通过 可 视 化 的 手段 ， 分 析 Iris 数 据 集 分 类 的 可 操作 性 。 


5.4.1 ”数据 来 源 


本 例 使 用 的 Iris (SERO) 数据 集 是 经 过 修改 的 ， 以 该 数据 集 为 基础 来 讲解 数据 的 清洗 操作 ， 该 数据 会 提供 给 读者 使 用 。 如 图 5.59 所 示 ， 先 加 载 该 数据 集 。 


以 上 的 数据 经 常用 于 机 器 学 习 (分 类 算法 ) 的 入 门 例子 中 。 其 中 ，sepal_length_cm 为 花 苯 长 度 ; sepal width cmt; petal length_cm 为 花 办 长 度 ; petal width_cm 为 花 斩 有 
个 数据 ， 可 以 判断 并 分 类 出 3 种 芒 尾 花 的 类 别 (class) 。 


。 通 过 这 4 


from pandas import Series,DataFrame 
import pandas as pd 

import numpy as np 

import matplotlib.pyplot as plt 

import matplotlib as mpl 

import seaborn as sns Jy, Lseaborné£tÉET/ E 
Wmatplotlib inline 


p 


iris data = pd.read csv(open( H: Apy thonZAE 3 15 HER iris-data. csv )) 
iris data.head() 


sepal length cm sepal width cm  petal length cm  petal width cm class 
5.1 3.5 1.4 0.2 lrns-setosa 
4.9 3.0 1.4 0.2 lris-setosa 
4.7 3.2 1.3 0.2 lris-setosa 
4.5 3.1 1.5 0.2 lris-setosa 
5.0 3.6 1.4 0.2 Iris-setosa 





图 5.59 Iris 数据 


5.4.2 ”定义 问题 


本 例 主要 是 学 习 如 何 对 数据 进行 清洗 ， 对 于 分 类 问题 在 本 例 中 不 做 讲解 。 本 例 目的 是 通过 数据 可 视 化 和 分 析 ， 按 照 葛 尾 花 的 特征 分 出 萤 尾 花 的 类 别 。 


543 ”数据 清洗 


首先 对 数据 进行 简单 描述 ， 看 其 中 是 否 有 异常 值 ， 如 图 5.60 所 示 。 


iris data. shape 


(150, 5) 


iris data. describe() 


sepal length cm sepal width cm  petal length cm  petal width cm 








count 150.000000 150.000000 150.000000 145.000000 


mean 
std 
min 
25% 
50% 
T5% 


max 


5.644627 
1.312781 
0.055000 
5.100000 
5.700000 
6.400000 
7.900000 


3.054667 
0.433123 
2.000000 
2.800000 
3.000000 
3.300000 
4.400000 


3.758667 
1.764420 
1.000000 
1.600000 
4.350000 
5.100000 
6.900000 


1.236552 
0.759058 
0.100000 
0.400000 
1.300000 
1.800000 
2.500000 





图 5.60 ”描述 统计 


通过 结果 可 看 出 ， 共 有 150 条 数据 ， 通 过 每 个 字段 的 平均 值 和 方差 ， 看 不 出 有 异常 值 ， 如 图 5.61 所 示 。 查 看 class 的 类 别 ， 发 现 不 是 3 种 ， 可 能 是 由 于 拼写 错误 造成 的 ， 在 这 里 进行 修改 。 


iris datal[l class'].unique() 


a " 2 3 ' d E a : 2 3 . 3 
array([ Iris-setosa , 'Iris-setossa , "Iris-versicolor , ` versicolor’, 
E 四 Hh ' E E Y A | mes — | EN fe 
Iris-virginica ], dtype-object) 
2 : G 3 
Iris-versicolor 


iris data.ixliris datal class’ ] "versicolor ， class | 


iris data.ix[iris data[' class’ ] 


'Iris-setossa , 'class'] = 'Iris-setosa 


iris data[' class” ]. unique () 


3 . 本 3 . . 5 EL. ` . deren 3 3 T . 
arrav([ Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype-object) 





图 5.61 查看 唯一 值 


回 到 异常 值 的 处 理 中 ， 这 里 分 析 可 能 是 分 类 的 原因 ， 数 据 都 很 均衡 。 下 面 利用 seaborn 绘 制 散 点 图 和 矩阵， 如 图 2.62 所 示 ， 代 码 如 下 。 


sns.pairplot(iris data, hue='class') 


QFE: pandas 根 据 类 别 绘制 散 点 图 时 很 麻烦 ， 有 兴趣 的 读者 可 以 学 习 seabotn 的 可 视 化 技术 。 









est 
I . 
e RII 
c. e dei tra 
- Ed 
ez © + 
* ee as 27," e ? 
* e lal 
* ae"? 一 


sepal length cm 


zo S 43 2 3 1 





epal width cm 


class 
* [ris-setosa 
* Iris-versicolor 
* [ris-virginica 


h cm 


gt 


tal len 


pe 





1:5 
1.0 
0.5 
0.0 


] width cm 


1.0 e «e» e» 


peta 





00 25 50 75 
sepal length cm sepal width cm petal length cm petal width cm 


0 ] 2 


图 5.62 dk E AETÉE- 
通过 第 一 列 可 以 看 出 ， 有 几 个 Iris-versicolor 样 本 中 的 sepal_length_cm 值 偏 移 了 大 部 分 的 点 ; 通过 第 二 行 可 以 看 出 ， 一 个 Iris-setosa 样 本 的 sepal_width_cm 值 偏离 了 大 部 分 的 点 。 


通过 对 Ilris-setosa 的 花 莹 宽度 绘制 直方 图 也 能 观测 出 异常 ， 如 图 5.63 所 示 。 


iris data.ix[iris data[' class ] == 'Iris-setosa' , 'sepal width cm ].histÜ 


&matplotlib. axes. subplots.AxesSubplot at OxlO0bfd5cO^ 





图 5.63  Iris-setosat] 465, 3E 9, EL Zr E 


这 里 对 异常 值 产生 的 原因 不 够 清楚 ， 所 以 直接 对 小 于 2.5cm 的 数据 进行 过 滤 ， 直 方 图 如 图 5.64 所 示 。 代 码 如 下 : 








iris data = iris data.loc[(iris data['class'] != 'Iris-setosa') | (iris 
data['sepal width cm'] >= 2.5)] 
iris data.loc[iris data['class'] == 'Iris-setosa', 'sepal width cm'].hist() 











3.0 32 3.4 3.6 38 40 


图 5.64 处 理 后 的 直方 图 





通过 索引 选取 Iris-versicolor 样 本 中 sepal length_cm 值 小 于 0.1 的 数据 ， 如 图 5.65 所 示 。 


图 中 的 sepal_length_cm 数 据 很 小 ， 有 可 能 是 单位 错误 ， 这 里 输入 的 是 以 m 为 单位 ， 通 过 与 其 他 数据 比较 ， 初 步 认 为 可 能 是 单位 设置 问题 。 通 过 以 下 代码 ， 对 数据 乘 以 100。 





iris data.loc[(iris data['class'] == 'Iris-versicolor') & 
(iris data['sepal length cm'] « 1.0), 
'sepal length cm'] *- 100.0 











iris data.loc[(iris data[ class'] == 'Iris-versicolor ) & 
(iris data[ sepal length cm ] < 1.0)] 


sepal length cm sepal width cm  petal length cm  petal width cm class 
0.067 3.0 5.0 1.7 lris-versicolor 
0.060 2.9 4.5 1.5 Iris-versicolor 
0.057 2.6 3.5 10 lris-versicolor 
0.055 2.4 3.8 1.1 lris-versicolor 
0.055 24 3.7 1.0 lris-versicolor 





图 5.65 ”选取 异常 数据 


再 查看 是 否 有 缺失 值 ， 如 图 5.66 所 示 ， 发 现 人 花瓣 宽度 有 5 条 缺失 值 ， 由 于 3 种 分 类 数据 样本 均衡 ， 因 此 直接 将 缺失 值 进行 删除 处 理 。 


iris data. isnullí).sum() 


sepal length cm 
sepal width cm 
petal length cm 
petal width cm 
class 

dtype: int64d 


iris data[iris data['petal width cm'].isnull(Q] 


sepal length cm sepal width cm  petal length cm  petal width cm class 


5.0 3.4 1.5 NaN lris-setosa 
44 2.9 1.4 NaN lris-setosa 
4.8 3.1 1.5 NaN lrs-setosa 
5.4 3./ 1.5 NaN lris-setosa 
4.8 3.4 1.6 NaN lris-setosa 


iris data. dropna inplace-True. 





图 5.66 ”处 理 缺 失 值 


最 后 对 清洗 好 的 数据 进行 存储 ， 以 方便 进行 下 一 步 分 析 ， 如 图 5.67 所 示 。 


iris _data. to_csv( H: \python EET AE E Xiris-clean-data.csv', index-False) 


iris data = pd.read csv(open( H:XpythonZiE A TERN iris-clean-data. csv )) 
iris data.head() 


sepal length cm  sepal width cm  petal length cm  petal width cm class 
5.1 3.5 1.4 0.2 Iris-setosa 
4.9 3.0 1.4 0.2 Iris-setosa 
4.7 32 1.3 0.2 lris-setosa 
4.6 3.1 La 0.2 lris-setosa 
5.0 3.5 1.4 0.2 Iris-setosa 


1ris data. shape 





(144, 5) 


图 5.67 保存 清洗 的 数据 


544 ”数据 探索 


下 面 对 处 理 好 的 数据 绘制 散 点 和 矩阵 图 。 如 图 5.68 所 示 ， 可 以 看 出 在 大 部 分 情况 下 数据 接近 正 态 分 布 ， 而 且 Iris-setosa 与 其 他 两 种 人 花 是 线性 可 分 的 〈 用 一 个 直线 就 可 以 切 分 ) ， 其 他 两 种 花 型 可 能 需要 通 
过 非 线性 算法 进行 分 类 。 
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图 5.68 Jk, 5 4E TE EA 


通过 绘制 箱 形 图 也 可 以 发 现 该 规律 ， 通 过 petal length_cm 可 以 轻松 区 分 Iris-setosa 与 其 他 两 种 花 ， 如 图 5.69 所 示 。 





iris data.boxplot (column-'petal length cm', by-'class',grid-False,figsize-(6,60)) 








OFE: boxplot 用 于 绘制 箱 形 图 ，figsize 可 设置 画布 的 大 小 。 


Boxplot grouped by class 
petal length cm 








x 


Iris-setosa Iris-versicolor Iris-virgnica 
class 


图 5.69 $877 E] 


第 6 草 ”数据 分 组 与 聚合 


数据 的 分 组 统计 是 数据 分 析 工 作 中 的 重要 环节 。 本 章 将 讲解 GroupBy 的 原理 和 使 用 方法 ; 聚合 国 数 的 使 用 ; 分 组 运算 中 transform 和 apply 方 法 的 使 用 ; 通过 pandas 创 建 数据 透视 表 的 方法 ; 最 后 通过 
一 个 综合 示例 ， 巩 固 数 据 分 组 统计 的 使 用 。 


下 面 给 出 本 章 涉及 的 知识 点 与 学 习 目 标 。 
- 数据 分 组 : 了 解数 据 分 组 的 原理 和 GroupBy 的 使 用 方法 。 
* 聚合 运算 : 学 会 分 组 数据 的 聚合 运算 方法 和 函数 使 用 。 
- 分 组 运算 : 重点 掌握 apply 方 法 的 使 用 。 


" 数据 透视 表 : 学 会 构建 数据 透视 表 和 交叉 表 。 


6.51 数据 分 组 


数据 分 组 的 思想 来 源 于 关系 型 数据 库 。 本 节 将 着 重 讲解 数据 分 组 的 原理 ， 通 过 简单 案例 ， 带 领 读者 学 会 GroupBy 的 使 用 方法 。 


6.1.1 GroupBy 简 介 


GroupBy 技 术 用 于 数据 分 组 运算 ， 类 似 于 Excel 的 分 类 汇总 (对 于 不 同 分 类 进行 运算 ) ， 


其 运算 的 核心 模式 为 split-apply-combine， 如 图 6.1 所 示 。 首 先 ， 数 据 集 按照 key (分 组 键 ) 的 方式 分 成 小 的 数 


据 片 (split) ;然后 对 每 一 个 数据 片 进行 操作 ， 如 分 类 求 和 (apply) 最 后 将 结果 再 组 合 起 来 形成 新 的 数据 集 (combine) 。 


在 第 3 章 的 小 费 数据 集 分 析 中 ， 通 过 性 别 分 别 计算 了 小 费 平均 值 。 当 时 的 做 法 是 : 通过 布尔 索引 选取 男性 和 女性 的 小 费 数据 ， 分 别 求 平均 ， 然 后 以 此 构造 series 数据 。 这 个 方法 其 实 很 繁 珊 ， 如 果 类 别 很 


， 难 道 要 一 个 个 地 选取 出 来 计算 吗 ” 当 然 不 是 。 


其 实 ， 利 用 groupby 方 法 可 以 轻松 地 完成 分 组 统计 的 任务 。 以 小 费 数 据 集 为 例 ， 


过 性 别 分 别 计算 小 费 平 均值 ， 如 图 6.2 所 示 。 


at 代码 运行 需 导 入 相应 的 库 (如 pandas 或 seaborn) 。 人 小费 数据 集中 的 各 列 字 段 说 明 可 参考 3.6.1 节 ， 不 再 葛 述 。 


0 


n 
» 
n 
n 





Apply Combine 


图 6.1  GroupBy4& 


tips-sns.load dataset( tips) 
tips.head() 


total bill tip sex smoker day time size 
16.99 1.01 Female No Sun Dinner 2 
10.34 1.66 Male No Sun Dinner 
21.01 3.50 Male No Sun Dinner 
23.68 3.31 Male No Sun Dinner 
2459 361 Female No Sun Dinner 


grouped = tips[ tip l.zroupby(tips[ sex ]) 
grouped 





<pandas. core. groupby. SeriesGroupBy object at OxOOOOOOOOOBCFS8160» 


图 6.2 ”GroupBy 分 组 


返回 的 grouped 为 GroupBy 对 象 ， 是 保存 的 中 间 数 据 ， 对 该 对 象 调 用 mean 方 法 即 可 返回 数据 ， 如 图 6.3 所 示 。 


grouped. meant) 


SEX 


Male 3. 089618 
Female 2.833448 
Name: tip, dtype: float64d 





图 6.3  GroupBy7& & 


mean 方 法 完成 了 分 组 数据 的 聚合 运算 ， 返 回 了 一 个 Series 数 据 ， 更 多 的 聚合 运算 将 在 后 面 讲 解 。 当 然 ， 也 可 以 通过 多 个 分 组 键 进行 计算 ， 通 过 day 和 time， 计 算 小 费 平均 值 ， 如 图 6.4 所 示 。 


date mean = tips[ tip ]. groupby([tips[’ day’ ], tips{[’ time’ ]]). mean() 
date mean 


time 

Lunch 2. TOT 105 
Dinner 3. OOOOOO 
Lunch à. JO 2051 
Dinner 2. 940000 
Dinner 2. 993103 
Dinner Jd; e00ldZ 
tip, dtype: float64 





E64 ”多 key 分 组 


通过 pandas 绘 图 可 分 析出 : Æ (Dinner) 比 午餐 (Lunch) 的 小 费 金额 多 ， 而 且 周 六 (Sat) 、 周 日 (Sun) 的 小 费 金额 明显 比 周 四 (Thur) 、 周 五 (Fri) 多 ， 如 图 6.5 所 示 。 





date mean.plot (kind-'barh') 


(Sun, Dinner) 
(Sat, Dinner) 
(Fri, Dinner?) 
(Fri; Lunch 


(Thur, Dinner) 


(Thur, Lunch?) 
0.0 





图 6.5 ”时间 对 小 费 的 影响 


GroupBy 对 象 是 可 和 迭代 的 ， 其 构造 为 一 组 二 元 元 组 ， 如 图 6.6 所 示 。 


for name, group in tips.groupby(tips[ sex']): 
print (name) 
print (group) 


Male 

total bill t1 sex smoker 
10. 34 Male No 
21.01 Male No 
23. 868 Male No 
25. 29 Male No 
8. T1 Male No 
26. 58 Male No 
15. 04 Male No 
14. 78 Male No 
10. 27 Male No 
15. 42 Male No 
18. 43 Male No 
21. 58 Male No 
16.28 Male No 
20. 65 Male No 
17.92 Male No 
39. 42 Male No 
18. 82 Male No 
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图 6.6 “分 组 和 迭代 
Ex. GroupBy 由 分 组 名 和 数据 片 构成。 


Size 方法 可 返回 各 分 组 的 大 小 ， 如 图 6.7 所 示 。 


tips. groupby (tips|[ sex ]).size() 


SeX 


Male lör 
Female Si 
dtype: int64d 





El6.7  sizeZz ik 


6.1.2 ” 按 列 名 分 组 


在 6.1 节 中 ，groupby 方 法 使 用 的 分 组 键 为 Series。 当 然 ， 分 组 键 也 支持 其 他 的 格式 ， 下 面 的 内 容 中 将 一 一 介绍 分 组 键 格式 和 使 用 方法 。DataFrame 数 据 的 列 索引 名 称 可 以 作为 分 组 键 ， 如 图 6.8 所 示 。 
用 列 索引 名 称 可 以 作为 分 组 键 时 ， 用 于 分 组 的 对 象 必须 是 DataFrame 数 据 本 身 ， 否 则 搜索 不 到 索引 名 称 会 报错 。 通 过 绘制 图 6.9， 可 以 看 出 吸烟 对 小 费 数据 的 影响 不 大 。 


smoker mean = tips.groupby( smoker’ ).mean{) 
smoker mean 


total bill tip 
smoker 
Yes 20.756344 3008710 2.408502 
No 19.188278 29981854 2.668874 





图 6.8 按 列 名 分 组 





smoker mean['tip'].plot (kind-'bar') 





图 6.9 ”吸烟 与 小 费 的 关系 


上 述 方法 返回 的 是 多 列 DataFrame 的 数据 ， 如 果 只 需要 获取 tip (小 费 ) 列 数据 ， 通 过 索引 选取 即 可 。 但 GroupBy 对 象 也 可 通过 索引 获取 tip 列 ， 然 后 再 进行 聚合 运算 ， 它 其 实 相当 于 语法 糖 ， 更 好 用 ， 
如 图 6.10 所 示 。 通 过 图 6.11 可 看 出 ， 小 费 金 额 基 本 上 与 聚餐 人 数 呈 正 相 关 ， 但 人 数 为 ?5 时 ， 有 下降 的 趋势 。 


size meanl = tips[ tip ].groupby(tips[ size']).mean() 
size meanl 


size 
1 1.437500 
2 2. 582308 
a 3. 393158 
4 4.135405 
5 4.028000 
6 5. 225000 
Name: tip, dtype: float6d 


size mean2 = tips.groupby( size )[ tip ].mean() £4; 
size mean2 


size 
1.437500 
2. 582308 
3. 393158 
4. 135405 
4. 028000 
5. 225000 
Name: tip, dtype: float6d 





图 6.10 ”groupby 语 法 糖 


size mean2.plot() 





图 6.11 REAR (size) 与 小 费 (tip) 关系 


6.1.3“ 按 列表 或 元 组 分 组 


分 组 键 也 可 以 是 长 度 适当 的 列表 或 元 组 ， 长 度 适当 其 实 就 是 要 与 待 分 组 的 DataFrame 的 行 数 一 样 ， 简 单 地 理解 ， 就 是 把 列表 或 元 组 当做 DataFrame 的 一 列 ， 然 后 按 其 分 组 ， 如 图 6.12 所 示 。 


df = DataFrame (np. arange(16). reshape(4, 4)) 
df 


— 
lh) MC uw. DET 6 
O tu 
=k 
eO o 
—"" 
= 4 


Go ^n 


13 14 15 
listi = 上 着 
df. gzroupby (list1). sum!) 


8E 3 X 3 
a 8 10 12 14 
b 16 18 20 22 


6.1.4. FRH 


如 果 原 始 的 DataFrame 中 的 分 组 信息 很 难 确定 或 者 不 存在， 可 通过 字典 结构 ， 定 义 分 组 的 信息 ， 如 图 6.13 所 示 。 通 过 各 字母 进行 分 组 (不 区 分 大 小 写 ) ， 通 过 字典 作为 分 组 键 ， 如 图 6.14 所 示 。 


Fr = DataFrame (np.random.normal(size-(8,6)),index-[ a , b, c, A," B," C ]) 


0 
0.031512 
0.774907 
1.437972 

-1.756954 
-0.575227 
0.481407 


1 
-0.896280 
0.020968 
-0.699240 
0.652186 
0.299196 
-0.983928 


2 
-0.000981 
0.575220 
-1.064924 
1.149668 
-0.120483 
1.270371 


df. groupby (dicti). sum) 


one 


three 


two 0.199680 0.320164 0.454738 


6.1.5 FERRME 


1.919380 


0 


-1.725042 -0.244095 


1 


-1.683169 0.205448 


3 
0.558886 
-0.566894 
0.235661 
0.192652 
-2.665255 
-1.581129 


图 6.13 原始 数据 


2 


图 6.14 FADA 


-3.232148 


4 
-1.574150 
1.326251 
1.841803 
2.202044 
0.432872 
-1.568339 


3 


5 
0.030435 
0.775521 
1.238480 
0.366539 
1.627597 

-2.122324 





4 


1.148687  À0./51538 0.627894 0.396974 
-1.345468 0.273464 
1.759122 2.403117 





函数 作为 分 组 键 的 原理 类 似 于 字典 ， 通 过 映射 关系 进行 分 组 ， 但 是 阔 数 分 组 更 加 灵活 ， 如 图 6.15 所 示 。 通 过 DataFrame 最 后 一 列 的 数值 进行 正 负 分 组 。 


df = DataFrame np. random. randn(4, 4) ) 
df 


0 1 2 3 
0 0.803694 -1.242886 0.393840 -1.137829 
1.048137 -0.931402 -0.262153 0.609839 


— 


2 0.135432 0.739250 -1.685265 1.562063 
-0.863777 -0.687589 1.901485 -0.224359 


C2 


def jug(x): 
if x >= 0: 
retum 'a 
else: 
retum hb 


df [3]. zroupby (df [3]. map (jug) ) . sum () 


j 

A 2.111902 

b -1. 362188 

Name: 3, dtype: float64d 


对 于 层次 化 索引 ， 可 通过 级 别 进行 分 组 ， 通 过 level 参 数 ， 输 入 编号 或 名 称 即 可 ， 如 图 6.16 所 示 。 


DataFrame (np. arange(16).reshape(4, 4), 
index-[[' one'," one ," two," two ], 2, ," 2," e ]], 


columns-[[' apple',' apple',' orange ,’ orange’ ], L red," green’, xed' ," green ]]) 


apple orange 


red green red green 


df. groupby (level-1). sum() 


apple orange 
red green red green 
8 10 12 14 
22 





图 6.16 ”索引 级 别 分 组 


当然 ， 也 可 以 在 列 上 进行 分 组 (axis=1) ， 如 图 6.17 所 示 。 


df. zroupby (level=1, axis=1). sum<) 


green red 
4 2 

12 10 

20 18 


20 20 





图 6.17 按 列 进行 分 组 


聚合 运算 就 是 对 分 组 后 的 数据 进行 计算 ， 产 生 标量 值 的 数据 转换 过 程 。 本 节 将 讲解 常用 的 聚合 函数 和 自 定义 聚合 函数 的 用 法 。 


前 面 的 例子 中 使 用 了 部 分 聚合 运算 方法 ， 如 mean、count 和 sum 函 数 ， 如 表 6.1 所 示 为 常用 的 聚合 运算 方法 。 


表 6.1 聚合 运算 方法 


2$ X 
count 计数 
sum 求 和 
mean 求 平均 值 
median 求 算 木 中 位 数 
std. var JG f TEE Z5 017] 2c 
min, max 求 最 小 值 和 最 大 值 


prod 求 积 
first, last 第 一 个 和 最 后 一 个 值 


AS: 空 值 不 参与 计算 。 


然后 通过 性 别 分 组 ， 计 算 小 费 的 最 大 值 ， 如 图 6.18 所 示 。 


使 用 说 明 


max tip = tips.zroupbyU sex ][ tip ]. max () 
max tip 


sex 

Male 10.0 

Female B. 9 

Name: tip, dtype: float64d 


max tip.plotíkind- bar ) 


&matplotlib. axes. subplots.AxesSubplot at OxcbOd6a0^ 


10 





Male Female 


SCX 


E618 小 费 最 大 值 运算 
其 实 ， 除 了 上 述 聚 合 运算 方法 外 ， 只 要 是 Series 或 DataFrame 支 持 的 能 用 于 分 组 的 运算 国 数 都 可 以 拿 来 使 用 ， 如 图 6.19 所 示 。 


对 于 更 加 复杂 的 聚合 运算 ， 可 以 自 定 义 聚 全 函数 ， 通 过 aggregate 或 agg 参 数 传 入 即 可 。 例 如 ， 通 过 性 别 分 类 ， 计 算 小 费 最 大 值 与 最 小 值 的 差 ( 极 差 ) ， 如 图 6.20 所 示 。 


df = DataFrame(np. arange (16). reshape (4, 4)) 
df 


J 12 13 14 15 


listi 一 kE B. 8. €*1 
df. zroupby (1istl). quantile (0. 5) 


05 0 1 2 3 


a 40 50 60 70 
b 80 90 100 110 


def get range(x): 
return x.max()-x.min() 


tips range = tips.groupby( sex J)[ tip'].agg(get range) 


tips range 


sex 
Male 9.0 
Female 0.0 
Name: tip, dtype: float64d 





图 6.20 ”聚合 函数 


如 图 6.21 所 示 ， 可 以 看 出 ， 男 性 (Male) 的 小 费 极 差 比 女性 (Female) 大 很 多 ， 说 明 在 小 费 给 予 中 ， 男 性 的 差异 较 大 ， 主 观 性 更 大 。 


Female 





图 6.21 小费 极 差 


6.2.2 f BRE FH 


1. 一 列 多 函数 
如 图 6.22 所 示 ， 对 agg 参 数 传 入 多 函数 列表 ， 即 可 完成 一 列 的 多 函数 运算 。 


tips. groupby ([’ sex! ,’ smoker’ ]) [ tip' ]. agg (U mean’ st 中 ,get rangel) 


std get range 


smoker 


3.051167 1.500120 


3.113402 1.489559 
2931515 1219916 
2./73519 1.128425 





图 6.22 一列 多 函数 


如 果 不 想 使 用 默认 的 运算 函数 列 名 ， 可 以 元 组 的 形式 传 入 ， 前 面 为 名 称 ， 后 面 为 聚合 函数 ， 如 图 6.23 所 示 。 


tips.groupby([ sex,” smoker’ ]) U tip l].agzg [C tip mean , mean? ), ( Range z get_range)]) 


tip mean Range 
Sex smoker 
Male Yes 3.051167 
No 3.113402 
2.931515 
2.773519 





H623 EPA 


2. NJ ERN 


对 多 列 进行 多 聚合 函数 运算 时 ， 会 产生 层次 化 索引 ， 如 图 6.24 所 示 。 


tips.groupby([ day ," time” ]) [ total bill1 ，tip ].age'i[( tip mean , mean’ ), ( Ranee’ ,get ranee)]) 


total bill tip 
tip mean Range tip mean Range 


time 


Lunch 17.654754 


Dinner 18.780000 
Lunch 12.845714 


Dinner 19.663333 
Dinner 20.441378 
Dinner 21.410000 


3. 不 同 列 不 同 孙 数 


2.767705 
3.000000 
2.382857 
2.940000 
2.993103 
3.255132 





图 6.24 多 列 多 函数 


如 果 需 要 对 不 同 列 使 用 不 同 的 函数 运算 ， 可 以 通过 字典 来 定义 映射 关系 ， 如 图 6.25 和 图 6.26 所 示 。 


J 


tips.groupby([ day , time ]) [ total bill',' tip l.aggí[i total bill':'sum 


3 = J J E ' 
; tip : mean }) 


total bill tip 
time 
1077.55 


Lunch 2.167705 


Dinner 18.78 3.000000 
89.92 
235.96 


1778.40 


2.382857 
2.940000 
2.993103 


Lunch 
Dinner 
Dinner 
1627.16 


Dinner 3.255132 





图 6.25 RAZA F žžk 
tips.groupby([ day ," time’ ]) ' total bill',' tip']. agg(U total_bill’ :[ sum , mean’ ], ' tip':' mean 1) 
total bill tip 
mean 


sum 


time 


Lunch 
Dinner 
Lunch 
Dinner 
Dinner 


Dinner 


1077.55 
18.78 
89.92 

235.96 

1778.40 

1627.16 


17.664754 
18.780000 
12.845714 
19.663333 
20.441379 
21.410000 


2.767705 
3.000000 
2.382857 
2.940000 
2.993103 
3.255132 





图 6.26 ”不同 列 不 同 函 数 2 


如 果 希 望 返回 的 结果 不 以 分 组 键 为 索引 ， 通 过 as index=False 可 以 完成 ， 如 图 6.27 所 示 。 


no index = tips.groupby([ sex , smoker'],as index-False)[ tip ].mean() 
no index 


sex smoker tip 


Male Yes 3.051167 


Male No 3.113402 


2.931515 


Female 


Female 2./ [3919 





图 6.27 ”取消 分 组 键 为 索引 


6.3.1 transform 方法 


首先 对 小 费 数据 集 新 建 一 列 用 于 存放 男性 和 女性 小 费 的 平均 值 。 常 用 的 方法 是 ， 先 聚合 运算 ， 然 后 再 将 其 合并 ， 如 图 6.28 所 示 。 


df = DataFrameítips.groupby sex )[ tip ].mean(Q) 


df 


tip 
sex 
Male 3.089618 
Female 2.833448 


new tips = pd.mergeltips, df, left on= sex ,rieht index-True) 


new tips.headl) 


total bill tip x 

0 16.99 1.01 
4 2459 3.61 
11 3526 5.00 
14 14.83 3.02 


16 10.33 1.67 


sex smoker 


Female 
Female 
Female 
Female 


Female 


NO 
NO 
NO 
No 
No 


图 6.28 ”聚合 加 合并 


day 
sun 
sun 
sun 
Sun 


sun 


上 面 的 方法 虽然 也 能 实现 ， 但 过 于 烦琐 ， 不 灵活 。 通 过 transform 方 法 可 以 使 运算 分 布 到 每 一 行 ， 如 图 6.29 所 示 。 


time size 
Dinner 2 
Dinner 4 
Dinner 4 
Dinner 2 
Dinner 3 


üp y 
2.833448 
2.833448 
2.833448 
2.833448 
2.833448 


tips.groupby( sex ) | tip ]. transform mean | 


Q 2.833448 
1 J. 0896198 
2 J. 0896198 
J J. 089618 
4 2.833448 
o J. 089618 
6 J. 089618 
T J. 089619 
Ó J. 089619 
9 J. 089618 
10 J. 089618 
11 2.833448 
12 J. 089618 
13 J. 089618 
14 2. 833448 
15 J. 0896198 
16 2.833448 
17 J. 089619 
18 2.833448 
19 J. 089618 
20 J. 089618 


图 6.29 transform Zr i& 


6.3.2 apply 方 法 


apply 方 法 的 功能 更 加 强大 ， 例 如 可 以 计算 根据 性 别 分 组 后 小 费 金额 排 在 前 5 名 的 DataFrame 数 据 ， 如 图 6.30 所 示 。 


def top (x, n=5): 


return x.sort Yalues (by= tip ,ascendine=False) |-n: ] 


tips.groupby( sex').apply(top) 


total bill 
sex 
Male 43 9.68 
235 10.07 
75 10.51 
237 32.83 
236 12.60 
Female 215 12.90 
0 16.99 
111 7.25 
67 3.07 
92 ngu 


tip 


Sex 


Male 
Male 
Male 
Male 
Male 
Female 
Female 
Female 
Female 


Female 


图 6.30 apply Zr ;& 


如 果 希 望 返回 的 结果 不 以 分 组 键 为 索引 ， 通 过 group keys=False 可 以 完成 ， 如 图 6.31 所 示 。 


smoker 


NO 
NO 
NO 
Yes 
Yes 
Yes 
NO 
NO 
Yes 


Yes 


day 


sun 
Sat 
Sat 
Sat 
sat 
Sat 
Sun 
Sat 
Sat 
Fri 


time 


Dinner 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 


Dinner 


size 


tips.groupby( sex ,group_ keys-False).apply top) 


total bill 

43 9.68 
235 10.07 
75 10.51 
231 32.83 
236 12.60 
215 12.90 
0 16.99 
111 7.25 
67 3.D7 
92 E es 


1.32 


1.01 
1.00 
1.00 
1.00 


sex smoker 
Male NO 
Male NO 
Male NO 
Male Yes 
Male Yes 
Female Yes 
Female NO 
Female NO 
Female Yes 
Female Yes 


例如 ， 前 面 对 缺 失 数据 的 处 理 可 通过 数值 填充 来 完成 ， 如 图 6.32 和 图 6.33 所 示 。 也 可 以 通过 平均 值 对 缺失 值 进行 填充 。 


day 
SUn 
sat 
Sat 
Sat 
Sat 
Sat 
sun 
Sat 
Sat 
Fri 


time size 
Dinner 
Dinner 
Dinner 
Dinner 
Dinner 


Dinner 


Dinner 
Dinner 1 
Dinner 1 


Dinner 2 


data = | 

UE E [* 2 《二 3 zi [nu : 3 peter' : 3 TA $ " ^|BH' 7 " | £T" T 
sex :[ female’, female’, 'male', "male , male , "female ], 
"math :[67, 72, np.nan, 82, 90, np.nan] 


3 


i 
df = DataFrame(data) 
dfl math’ ] = dfl’ math ] 


Sex 
female 
female 

peter | male 

+6 male 


; BB male 





小 TT female 


图 6.32 ”数据 结构 


'. fillna(df[l math ]. mean () ) 


math Sex 
67.00  3x&— female 
72.00 Æp female 
[f./[5 peter male 
8200 +ñ male 
90.00 小 明 male 
77.75 小 红 female 





图 6.33 均值 播 值 


可 以 这 样 假 设 : 男生 和 女生 的 数学 成 绩 还 是 有 区 别 的， 希望 通过 分 组 后 ， 再 进行 插值 ， 如 图 6.34 所 示 。 


f = lambda x: x. fillna(x.mean()) 
df. gzroupby ( sex ). apply (f) 


math name sex 
Sex 
female 0 670  3€-— female 
1 720 pm female 
9 695 hT female 
male 2 3560 peter male 


male 





male 
图 6.34 ”分 组 后 插值 


6.4 ”数据 透视 表 


说 到 数据 透视 表 ， 读 者 可 能 并 不 陌生 ， 在 Excel 中 ， 就 有 数据 透视 表 的 功能 ， 通 过 行 、 列 、 值 形成 一 个 透视 表 。 在 pandas 中 ， 通 过 pivot table 函 数 也 可 实现 同样 的 功能 ， 本 节 将 对 其 进行 详细 讲解 。 


6.4.1 ”透视 表 


首先 介绍 pivot table 函 数 的 常用 参数 ，value 代 表 的 是 值 ，index 为 行 ，columns 为 例 ， 其 他 参数 在 实际 案例 中 讲解 。 这 里 以 小 费 数据 集 为 例 ， 如 图 6.35 所 示 。 


tips.pivot tablelvalues= tip’ ,index-' sex”, columns-' smoker' | 


smoker Yes No 
sex 
Male 3.051167 3.113402 


Female 2.931515 2/73519 





图 6.35 AIA 


这 里 的 值 计算 为 平均 值 (默认 ) ， 也 可 以 通过 aggfunc 参 数 来 指定 ， 如 图 6.36 所 示 。 
sa . i -J Dai `i "s 本 -— 3 | d L 
tips.pivot table(values-' tip’, index-' sex', columns-' smoker’ , aggfunc-' sum ) 


smoker Yes No 
SeX 

Male 183.07 302.00 
Female 96.74 149.77 





图 6.36 ”指定 计算 函数 


通过 margins 参 数 可 加 入 分 项 小 计 ， 如 图 6.37 所 示 。 


tips.pivot table (values= tip ,index-' sex',columns-' smoker', aggfunc= sum ,margins-True) 


smoker Yes No All 


Sex 


Male 183.07 302.00 485.07 
Female 96.74 149.77 246.51 


AN 279.81 451.77 731.58 





图 6.37 分 项 小 计 


AS: 更 多 参数 的 使 用 说 明 ， 读 者 可 查看 帮助 文档 。 


64.2 ZNE 


交叉 表 是 一 种 用 于 计算 分 组 频率 的 特殊 透视 表 ， 这 里 还 以 小 费 数 据 集 为 例 ， 其 使 用 方法 如 图 6.38 所 示 。 


cross table = pd.crosstab(index-tips[ day], columns-tips[ size']) 
cross table 





图 6.38 X SU 


通过 div 函 数 ， 可 以 使 得 每 行 的 和 为 1， 如 图 6.39 所 示 。 


. sum (1), axis-O) 


Thur 0.016129 20.774194 20.064516 0.080645 0.016129 20.048387 


Fri 0.052632 0.842105 20.052632 20.052532 20.000000 0.000000 
Sat 0.022989 20.609195 10.206897 20.148425 30.011494 20.000000 
Sun 0.000000 20.513158 20.197368 20.236842 20.039474 20.013158 





图 6.39  divi& Jk 


这 样 可 以 看 出 聚餐 人 数 的 比例 情况 。 在 pandas 绘 图 中 ， 通 过 stacked=True 可 以 绘制 堆积 图 ， 如 图 6.40 所 示 。 


| df. plot {kind” bar” , stacked = True) 


{matplotlib. axes. subplots.AxesSubplot at DOxboga60gn0> 








6.5 AHI 


本 节 以 美国 城市 巴尔 的 摩 2016 年 公务 员工 资 的 数据 集 为 基础 ， 讲 解数 据 分 析 中 数据 分 组 统计 的 使 用 ， 并 通过 可 视 化 手段 ， 分 析 其 工资 情况 。 


6.5.1 数据 来 源 


本 例 使 用 的 数据 集 可 在 该 网 站 https://catalog.data.gov/dataset/baltimore-city-employee-salaries-fy2016 进 行 下 载 ， 可 支持 多 种 文件 结构 的 下 载 ， 这 里 下 载 CSV 文 件 ， 如 图 6.41 所 示 。 


iu Baltimore City Employee Salaries FY2016 


的 Metadata Updated: February 3, 2018 


City of Baltimore This database captures gross salary from July 1, 2015 through June 30, 2016 and includes only those 


City of Baltimore read more employees who were employed on June 30, 2016 


E Topics 
Access & Use Information 


Local Government 
@ Public: This dataset is intended for public access and use. 
Il Publisher € Non-Federal: This dataset is covered by different Terms of Use than Data.gov. 
: [3] License: See this page for license information. 
data.baltimorecity.gov 
KA Contact 
Open Baltimore Downloads & Resources 


f* Share on Social Sites 
1 Comma Separated Values File «^ 124 views 


Google+ 
Q Link is ok vrx; Openness score 


Q Twitter 

E Facebook RDF File le 22 views 
Q Link is ok Openness score 
JSON File l~ 15 views 
© Link is ok vr; Openness score 


XML File «^34 views 


© Link is ok Yr; Openness score 





图 6.41 数据 下 载 
下 载 好 的 CSV 文 件 可 通过 pandas 读 取 ， 加 载 该 数据 集 ， 如 图 6.42 所 示 。 


该 数据 为 美国 政府 公开 的 公职 人 员 的 薪资 数据 。 其 中 ，Name 为 姓名 ; JobTitle 为 职位 名 称 ; AgencylD 和 Agency 为 工 号 和 单位 ; HireDate 为 入 职 日 期 ; AnnualSalary 为 年 薪 ; GrossPay 为 总 薪资 ( 税 


BU) 。 


import numpy as np 
import pandas as pd 
Xmatplotlib inline 


salary = pd.read csv(open( H:Xpythonfd4 t E Baltimore City Employee Salaries FY2016.csv')) 
salary.head() 


Name JobTitle AgencyID Agency HireDate AnnualSalary GrossPay 
Aaron,Patricia G Facilities/Ofice Services Il A03031 OED-Employment Dev(031) 10/24/1979 12:00:00 AM $56705.00 $54135.44 
Aaron,Petra L ASSISTANT STATE'S ATTORNEY A29045 States Attorneys Ofice (045) 09/25/2006 12:00:00 AM $75500.00 $72445.87 


Abbey,Emmanuel CONTRACT SERV SPEC II AA40001 M-R Info Technology (001) 05/01/2013 12:00:00 AM $60060.00 $59602.58 


3 Abbott-Cole.Michelle Operations Officer III A90005 TRANS-Trafic (005) 11/28/2014 12:00:00 AM $70000.00 $59517.21 
4 Abdal-Rahim,Naim A EMT Firefighter Suppression A64120 Fire Department (120) 03/30/2011 12:00:00 AM $54365.00 $74770.82 





图 6.42 ”工资 数据 


6.5.2 ”定义 问题 


本 次 分 析 中 ， 围 绕 工资 提出 几 个 问题 : 年 薪 的 分 布 情况 、 公 务 人 员 入 职 日 期 的 情况 、 年 薪 最 高 的 职务 和 人 数 最 多 的 职位 。 


6.5.3 ”数据 清 污 


首先 对 数据 进行 简单 描述 ， 看 是 否 有 缺失 值 ， 如 图 6.43 所 示 。 


可 以 看 出 ，GrossPay 列 有 272 个 缺失 值 ， 因 为 这 里 的 样本 量 足 够 ， 直 接 删除 这 些 样本 即 可 ， 如 图 6.44 所 示 。 


salary. shape 


(13818, 7) 


salary.isnull(Ü).sum() 


Name 
JobTitle 
ÀzencvID 
Agency 
HireDate 
ÀnnualSalary 
GrossPav A 
dtype: int64d 


O O O OO O 


图 6.43 ”查看 缺失 值 


salary = salary. dropnal) 


salary. isnullí).sumí) 


Name 
TobTitle 
ÀgzencvID 
Agency 
HireDate 
ÀnnualSalarvy 
GrossPavy 
dtype: int64d 


图 6.44 ”删除 缺失 值 
Ats: 读者 也 可 以 通过 职位 分 组 后 插入 均值 。 


我 们 还 发 现 ， 在 工资 数据 中 ， 年 薪 和 薪资 都 是 字符 串 结构 的 ， 有 “$” 符 号， 利用 前 面 讲 的 字符 串 用 法 ， 将 其 去 掉 ， 并 转换 为 浮 点 类 型 ， 如 图 6.45 所 示 。 


salary [' AnnualSalary!] = salary [ AnnualSalary ]. str. strip $ ) 
salary GrossPay ] = salary[ GrossPay l.str.strip( $ ) 
salary[[ AnnualSalary , GrossPay ]l.head() 


AnnualSalary GrossPay 


0 56705.00 54135.44 
1 75500.00 72445.87 
2 60060.00 59602.58 
3 70000.00 59517.21 
4 64365.00 74770.82 


salary[ GrossPay].dtype 
dtype (C O^ ) 
salary[ AnnualSalary'] = salary[ ànnualSalary']. astype (float) 


salarvy[ GrossPay ] = salary[ GrossPay ]. astype (float) 
salarv[ GrossPay ]. dtype 


dtype | float64') 


图 6.45 ”工资 处 理 


对 于 入 职 日 期 ， 可 以 新 建 一 列 ， 用 于 存放 入 职 的 月 份 ， 如 图 6.46 所 示 。 


salary[ month ] = salary[ HireDate'].str.split( / ). str [0] 
salary[[ HireDate',' month! ]]. head Q 


HireDate month 
10/24/1979 12:00:00 AM 
08/25/2006 12:00:00 AM 
05/01/2013 12:00:00 AM 
11/28/2014 12:00:00 AM 
03/30/2011 12:00:00 AM 





图 6.46 日 期 处 理 


uus 这 里 是 把 日 期 数据 当做 字符 串 来 处 理 ， 日 期 数据 的 处 理会 在 后 面具 体 讲 解 。 


6.5.4. 效 据 探索 
我 们 首先 对 年 薪 工资 进行 直方 图 绘制 。 如 图 6.47 所 示 ， 年 薪 基本 呈正 态 分 布 ， 但 向 左 略 有 倾斜， 这 也 说 明 高 工资 的 职务 还 是 较 少 的 。 


salary['AnnualSalary'].hist (bins-20) 








50000 100000 150000 200000 250000 





图 6.47 “年薪 分 布 情况 


然后 对 入 职 的 月 份 进行 计数 并 绘制 柱状 图 ， 如 图 6.48 所 示 。 入 职 的 高 峰 期 为 9 月 、8 月 和 6 月 。 





month count = salary['month'].value counts () 
month count.plot (kind-'barh') 








800 1000 1200 





图 6.48 ”入 职 月 份 分 布 情况 


接着 通过 聚合 运算 ， 计 算 各 职位 的 年 薪 平 均值 和 职位 个 数 ， 如 图 6.49 所 示 。 


agg salary = salary.groupby( JobTitle')[ AnnualSalary!].agg([ mean," count? ]) 
agg salary 


JobTitle 
911 LEAD OPERATOR . 49816.750000 
911 OPERATOR  448298.461538 
911 OPERATOR SUPERVISOR — 57203.500000 
ACCOUNT EXECUTIVE  57200.000000 
ACCOUNTANT!  49065.866667 
ACCOUNTANTII  58172.640000 
ACCOUNTANT SUPV  67417.142857 
ACCOUNTANT TRAINEE — 36681.000000 
ACCOUNTING ASST|  29226.333333 
ACCOUNTING ASSTII  34281.533333 
ACCOUNTING ASST III  43187.818182 





E649 ”聚合 运算 


然后 再 对 年 薪 平 均值 进行 降序 排序 ， 取 前 5 名 绘制 柱状 图 ， 如 图 6.50 所 示 。 从 图 中 可 以 看 出 ，STATE'S ATTORNEY ( 州 检察 官 ) 的 年 薪 最 高 。 
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图 6.50 “年薪 职位 排名 柱状 图 


按 同 样 的 方法 ， 再 绘制 职位 人 数 排名 柱状 图 ， 如 图 6.51 所 示 。 可 以 看 出 ， 警 察 的 职位 人 数 远 多 于 其 他 职位 。 
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Laborer (Hourly) 


Recreation Arts Instructor 


EMT Firefighter Suppression 
Office Support Specialist II 


JobTitle 


图 6.51 职业 人 数 排名 柱状 图 


第 7 章 ”matplotlib 可 视 化 


数据 可 视 化 是 数据 分 析 中 的 一 部 分 ， 可 用 于 数据 的 探索 和 查找 缺失 值 等 ， 也 是 展现 数据 的 重要 手段 。matplotlib 是 一 个 强大 的 工具 箱 ， 其 完整 的 图 表 样式 函数 和 个 性 化 的 自 定义 设置 ， 可 以 满足 几乎 所 
有 的 2D 和 一 些 3D 绘 图 的 需求 。 本 章 介绍 了 如 何 利用 matplotlib 绘 制 常用 数据 图 表 ， 如 线形 图 、 柱 状 图 、 散 点 图 和 直方 图 ; 还 介绍 了 如 何 使 用 matplotlib 的 自 定义 设置 绘制 个 性 化 图 表 ; 最 后 使 用 全 球星 巴克 
店铺 的 数据 集 进 行 数据 分 析 和 可 视 化 ， 从 而 带领 读者 掌握 matplotlib 可 视 化 的 方法 和 技巧 。 


本 章 主要 涉及 以 下 几 个 知识 点 : 
线形 图 的 基本 绘制 方法 和 样式 设置 ; 
“ 各 类 柱状 图 的 绘制 方法 ; 

* 绘制 散 点 图 和 直方 图 ; 


. 灵活 运用 matplotlib 的 参数 自 定义 图 表 设 置 ; 


- 通过 综合 案例 掌握 matplotlib 可 视 化 的 方法 和 技巧 。 


7.1 线形 图 


线形 图 是 最 基本 的 图 表 类 型 ， 常 用 于 绘制 连续 的 数据 。 通 过 绘制 线形 图 ， 可 以 表现 出 数据 的 一 种 趋势 变化 。 例 如 ， 公 司 通过 绘制 每 个 月 份 的 产品 销售 量 趋势 图 ， 来 分 析 产 品 的 销售 情况 ， 以 此 做 出 销售 
方式 的 调整 。 本 节 主 要 介绍 如 何 利用 matplotlib 绘 制 线形 图 ， 并 介绍 通过 修改 matplotlib 中 plot 冰 数 的 参数 来 修改 线条 的 颜色 、 线 条 的 形状 (线形) 和 数据 点 标记 的 形状 。 


7.1.1 基本 使 用 


matplotlib 的 plot 函 数 可 以 用 来 绘制 线形 图 ， 在 参数 中 传 入 X 轴 和 Y 轴 坐标 即 可 。X 轴 和 Y 轴 坐标 的 数据 格式 可 以 是 列表 、 数 组 和 Series。 首 先 创建 一 个 DataFrame 数 据 ， 如 图 7.1 所 示 。 然 后 让 
DataFrame 数 据 的 行 素 引 作为 X 轴 ，math 列 索引 作为 Y 轴 ， 开 始 绘制 线形 图 ， 如 图 7.2 所 示 。 


import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 
Wnatplotlib inline 


data = 1 
"name :['8&—' , "EDU, "Eh. "88 1, 


'sex :[ female, 'female', 'male', 'male'], 
"math :[78, 79, 83, 92], 


! 3 city : we | 3 ES, 3 A, CGS] 


df = pd. DataFrame (data) 
df 


city math name Sex 
0 北京 78  sk— female 
1 PS T9 李 四 female 
2 广州 83 FA male 
3 北京 92 小 明 male 


图 7.1 数据 情况 


plt.plotidf. index, df l’ math’ ]) 


[<matplotlib. lines. Line2D at DOxa6c7518>] 





图 7.2 ”绘制 线形 图 


7.1.2 颜色 与 线形 


通过 plot 函 数 的 color 参 数 可 以 指定 线条 的 颜色 ， 这 里 绘制 的 是 红色 的 线条 ， 如 图 7.3 所 示 。 


years = [19850, 1960, 1970, 1980, 1990, 2000, 2010] 
zdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289. 7, 14958. 3] 
plt.plotíyears,gdp, color=’ r`) 


[<matplotlib. lines. Line2D at Oxa5dc438>] 





1990 


图 7.3 颜色 设置 1 
Dus. 由 于 是 黑白 印刷 ， 书 中 无 法 显示 真实 效果 ， 读 者 可 自己 操作 体验 。 


也 可 以 指定 RGB 值 来 更 改线 条 的 颜色 ， 如 图 7.4 所 示 。 


plt.plot(years, gdp, color=”#FFA500” ) 


[<matplotlib. lines.Line2D at Oxa3e5160?] 


2010 


1990 2000 





图 7.4 颜色 设置 2 
Com : 完整 的 参数 列表 可 参考 matplotlib 官 方 文档 ， 也 可 以 参考 该 博客 http://www.cnblogs.comy/datkknightzh/pP/6117528.html。 


通过 plot 函 数 的 linestyle 参 数 可 以 指定 线条 的 形状 ， 这 里 绘制 出 虚线 的 线条 ， 如 图 7.5 所 示 。 


plt.plot(years,gdp, linestyle-'--') 


[£matplotlib.lines.Line2D at Oxbfdd5cO?] 





图 7.5 ”线形 设置 


通过 plot 函 数 的 linewidth 参 数 可 以 指定 线条 的 宽度 ， 如 图 7.6 所 示 。 


plt.plot(years,gdp,linestyle-'--',linewidth-5) 


[imatplotlib.lines.Line2D at OxcOeS3dd8?] 


1990 





图 7.6” 线 宽 设 置 


7.1.3 ”点 标记 


默认 情况 下 ， 坐 标点 是 没有 标记 的 ， 通 过 plot 函 数 的 marker 参 数 可 对 坐标 点 进行 标记 ， 如 图 7.7 所 示 。 


plt.plotíyears, gdp,marker= D’ ) 


[imatplotlib.lines.Line2D at OxcldbO48?] 





图 7.7 点 标记 


颜色 、 线 条 和 点 的 样式 可 以 一 起 放置 于 格式 字符 串 中 ， 但 颜色 设置 要 放 在 线条 和 点 的 样式 的 前 面 ， 如 图 7.8 所 示 。 


plt.plot(years,gdp, co--' ) 


[<matplotlib. lines. Line2D at Oxcld35f85] 


1990 





图 7.8 各 样式 设置 


7.2 柱状 图 


柱状 图 是 数据 分 析 中 常用 的 图 表 。 本 节 将 着 重 讲解 通过 Matplotlib 绘 制 各 类 柱状 图 的 方法 ， 通 过 简单 的 例子 ， 让 读者 学 会 灵活 使 用 matplotlib。 


7.2.1 基本 使 用 


绘制 柱状 图 主要 是 使 用 matplotlib 的 bar 函 数 。 相 比 通过 pandas 绘 制 柱状 图 ， 通 过 matplotlib 绘 制 柱状 图 的 方法 稍 显 复杂 ， 需 传 入 刻度 列表 和 高 度 列表 ， 如 图 7.9 所 示 。 


data = [23, 85, 72, 43, 52] 
plt.bar([1,2,3,4,5], data) 


SContainer object of 5 artists? 








图 7.9 ”绘制 柱状 图 


通过 bar 国 数 的 color 参 数 可 以 设置 柱状 图 的 填充 颜色 ，alpha 参 数 可 以 设置 透明 度 ， 如 图 7.10 所 示 。 


plt.bar(range(len(data)), data, color=" royalblue', alpha=0. 7) 


SContainer object of 5 artists? 


oS SB ads 





图 7.10 颜色 设置 


grid 函 数 用 于 绘制 格 网 ， 通 过 对 参数 的 个 性 化 设置 ， 可 以 绘制 出 个 性 的 格 网 ， 如 图 7.11 所 示 。 


plt. bar (range {len (data) ), data, color-' green’ , alpha=0. 7) 
plt.gridí(color-'$95a5a6',linestyle-'--', linewidth-l, axis-' Y ,alpha=0.6) 
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图 7.11 格 网 设置 


bar 函 数 的 bottom 人 参数 用 于 设置 柱状 图 的 高 度 ， 以 此 可 以 绘制 堆积 柱状 图 ， 如 图 7.12 所 示 。 


datal = [23, 85, 72, 43, 52] 

data2 = [42, 35, 21, 16, 9] 
plt.bar(ranze(len(data)), datal) 
plt.bar(rangeílenídata)), data2, bottom-datal) 


SContainer object of 5 artists? 


100 








0 1 2 3 E 


图 7.12 堆积 柱状 图 


bar 函 数 的 width 参数 用 于 设置 柱状 图 的 宽度 ， 以 此 可 以 绘制 并 列 柱状 图 ， 如 图 7.13 所 示 。 


datal = [23, 85, 72, 43, 52] 

data2 = [42, 35, 21, 16, 9] 

width - 0.3 

plt. bar (np. arange (len(datal)), datal, width-width) 

plt. bar (np. arange (len(data2) ) width, data2, width-width) 


SContainer object of 5 artists? 





o &Bs5lBs s 8 


o 
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图 7.13 并列 柱 状 图 


bar 函 数 的 通过 barh 函 数 可 以 绘制 水 平 柱状 图 ， 如 图 7.14 所 示 。 


datal = [23, 85, 72, 43, 52] 
plt.barh(range(len(datal)), datal) 


SContainer object of 5 artists? 





E714 ”水 平 柱状 图 


7.2.2 ”刻度 与 标签 


通过 7.2.1 节 的 例子 可 以 看 出 ， 绘 制 的 柱状 图 的 X 轴 刻度 上 没有 对 应 的 刻度 标签 ， 但 现实 中 的 柱状 图 的 X 轴 是 需要 标签 的 。 在 matplotlib 中 ， 通 过 xticks 函 数 可 以 设置 图 标的 X 轴 刻度 和 刻度 标签 ， 通 过 以 下 
代码 就 可 以 绘制 带 有 标签 的 柱状 图 ， 效 果 如 图 7.15 所 示 。 


data = [23, 85, 72, 43, 52] 
labels = ['A','B','C', 'D', 'E' 
plt.xticks (range(len(data)),labels) # 设 置 刻度 和 标签 
pit.bar (range (len (data) ) , data) 























图 7.15 设置 刻度 和 刻度 标签 


OFE: 通过 yticks 函 数 可 以 修改 Y 轴 的 刻度 和 标签 。 


通过 xlable 和 ylabe 方 法 给 X 轴 和 Y 轴 添加 标签 ， 通 过 title 方 法 为 图 表 添 加 标题 ， 如 图 7.16 所 示 。 


data = [23, 85, 72, 43, 52] 

labels [2E BC. DE | 
plt.xticksírangellen(datal]],labels) iS. HUE SE 
plt.xlabelü Class) 

plt.ylabel( Amounts” ) 

plt. title Examplel ] 
plt.barírange(lenidata)), data) 


<Container object of 5 artists? 


Amounts 





(lass 


图 7.16 ”添加 X、Y 轴 标签 和 标题 


7.2.3 图 例 


图 例 是 标识 图 表 元 素 的 重要 工具 。 在 bar 函 数 中 传 入 label 参 数 可 表明 图 例 名 称 ， 通 过 legend 函 数 即 可 绘制 出 图 例 ， 如 图 7.17 所 示 。 


datal = [23, 85, 72, 43, 52] 

data2 = [42, 35, 21, 16, 9] 

width - 0.35 

plt. bar (np. arange(len(datal)), datal, width=width, label-' one") 

plt. bar (np. arange(len(data2)) width, data2, width=width, label= two ) 
plt. legend () 


&matplotlib.legend.Legend at Oxa63aed8» 








图 7.17 添加 图 例 


下 面 通过 小 费 数据 ， 讲 解 如 何在 现实 数据 中 绘制 柱状 图 ， 如 图 7.18 所 示 。 通 过 groupby 函 数 可 统计 男女 性 别 的 小 费 平 均值 ， 如 图 7.18 所 示 。 


tips-sns.load dataset( tips ) 
tips. head Í} 


total_bill tip sex smoker day time size 
16.99 1.01 Female No Sun Dinner 
10.34 1.66 Male No Sun Dinner 
21.01 3.50 Male No Sun Dinner 
2368 331 Male No Sun Dinner 
2459 3.61 Female No Sun Dinner 


sex mean = tips.groupby( sex J)[ tip'].mean() 
sex mean 


sex 
Male 3. 089618 
Female 2. 833448 
Name: tip, dtype: float6d 





图 7.18 分 组 数据 
全 说明 : 图 7.18 的 数据 集中 ，total_bill 为 消费 总 金额 tip 为 小 费 ; sex 为 顾客 性 别 ; smoket 为 顾客 是 否 抽烟 ; day 为 消费 的 星期 ， time 为 聚餐 的 时 间 段 ; size 为 聚餐 人 数 。 
下 面 给 出 获取 该 Series 的 索引 作为 X 轴 刻度 标签 的 代码 ， 绘 制 的 柱状 图 如 图 7.19 所 示 。 


abels = list(sex mean.index) 村 | 度 标签 
t.xlabel('sex') # 设 置 x 轴 标签 
t.ylabel('tip') # 设 置 Y 轴 标签 
七 .bar (range (len(labels)),sex mean,width-0.5) 
t.xticks (range (len (labels) ) , labels, fontsize=12) #i 设 置 刻度 和 刻度 标签 
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图 7.19 性别 和 小 费 的 关联 


7.3 ”其 他 基本 图 表 


本 节 主 要 讲解 其 他 基本 图 表 的 绘制 方法 ， 如 散 点 图 和 直方 图 。 


7.3.1 BRE 


matplotlib 的 scatter 函 数 可 以 用 来 绘制 散 点 图 ， 传 入 X 和 Y 轴 坐标 即 可 。 首 先 利用 NumpPy 创 建 一 组 随机 数 ， 如 图 7.20 所 示 为 绘制 的 散 点 图 。 


X = np. random. randní100) 
Y = np. random. randn(100) 
plt. scatter (X, Y) 


<matplotlib. collections.PathCollection at OxcafcelO^ 





E7.20 KEA 


也 可 以 为 散 点 更 改 颜色 和 点 标记 ， 如 图 7.21 所 示 。 (图 7.21 中 的 散 点 实际 为 红色 ) 


plt. scatter (X, Y, color=" red',marker-'D') 


&natplotlib.collections.PathCollection at Oxa68c278» 





图 7.21 样式 设置 


7.3.2 直方 


matplotlib 的 hist 函 数 可 以 用 来 绘制 直方 图 ， 如 图 7.22 所 示 。 


np. random. normal (size=100) 


plt. hist (x, bins=30) 
9. 6T3990859, .681923055, 0.96447025, 1.10€ 


1. 40018934, 1. 54542904, 1. 69066874, 1.83590844, 1.98114815, 


2. 12638783] ) ， 
<a list of 30 Patch objects?) 


"CC ' a4 C108 à? 
` , á 24, 





图 7.22 ”直方 图 


74 _ 目 定 义 设置 


由 于 matplotlib 是 最 底层 的 绘图 库 ， 因 此 有 很 大 的 设置 空间 。 本 节 将 讲解 如 何 通 过 matplotlib 进 行 自 定义 绘图 设置 。 


7.4.1 图 表 布 局 


matplotlib 的 图 像 位 于 Figure 对 象 中 。 通 过 figure 函 数 可 以 创建 一 个 新 的 Figure， 用 于 绘制 图 表 ， 其 中 的 figsize 参 数 可 以 设置 图 表 的 长 宽 比 。 在 创建 Figure 对 象 过 程 中 ， 通 过 add subplot 
图 ， 用 于 绘制 图 形 ， 如 图 7.23 所 示 。 


= plt.figure(figsize-(10,6)) 

= fig.add subplot(2, 2, 1) 

= fig.add subplot(2,2, 2) 
fig.add subplot(2, 2, 3) 





图 7.23 ”创建 子 图 


这 时 选择 不 同 的 ax 变量 ， 便 可 在 对 应 的 Subplot 子 图 中 绘图 ， 如 图 7.24 所 示 。 























fig = plt.figure(figsize-(10,9)) 

axl = fig.add subplot (2,2,1) 
fig.add subplot (2,2,2) 

ax3 = fig.add subplot (2,2,3) 

years = [1950, 1960, 1970, 1980, 1990, 2000, 2010] 


Q 

X 

N 
lod 

















gdp =- [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3] 
axl.scatter(years,gdp) 

ax2.plot(years,gdp) 

ax3.bar(years,gdp) 
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图 7.24 subplot 子 图 绘制 1 


通过 plt.subplots 可 以 很 轻松 地 创建 子 图 ， 而 且 axes 的 索引 类 似 于 二 维 数 组 ， 这 样 便 可 以 对 指定 的 子 图 进行 绘制 ， 如 图 7.25 所 示 。 


fig, axes = plt.subplots(2,2,figsize-(10,6)) 
axes[1,0]. plot (years, gdp) 


[<matplotlib. lines. Line2D at Oxdf69198>] 
10 
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图 7.25 ”subplot 子 图 绘制 2 


默认 情况 下 ， 各 subplot 子 图 间 都 会 留 有 一 定 的 间距 ， 如 图 7.26 所 示 。 当 没有 设置 figsize 时 ， 创 建 多 子 图 会 显得 拥挤 。 通 过 plt.subplots_adjust 方 法 ， 可 以 设置 子 图 的 间距 修改 子 图 之 间 的 间距 ， 如 图 
7.27 所 示 。 具 体 参数 如 下 : 


subplots adjust (left=None, bottom=None, right=None, top=None,wspace=None, hspace=None) 








其 中 ， 前 4 个 参数 用 于 设置 subplot 子 图 的 外 围 边 距 ，wspace 和 hspace 参 数 用 于 设置 subplot 子 图 间 的 边 距 。 


fig, axes = plt. subplots (2, 2) 
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E7.26 ”修改 前 


fig, axes = plt. subplots (2, 2) 
plt. subplots adjust(wspace-O. 3, hspace=0. 3) 
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图 7.27 修改 后 


7.4.2 文本 注解 


有 时 需要 在 图 表 上 加 上 文本 注解 。 例 如 ， 在 柱状 图 上 加 入 文本 数字 ， 可 以 很 清楚 地 知道 每 个 类 别 的 数量 。 通 过 text 函 数 可 以 在 指定 的 坐标 (x,y) 上 加 入 文本 注解 ， 如 图 7.28 所 示 。 





ta = [23, 85, 72, 43, 52] 
























































dat 

labels = ['A','B','C',''D',''E' 

plt.xticks (range (len (data) ) , labels) # 设 置 刻度 和 标签 
plt.xlabel ('Class') 

plt.ylabel('Amounts') 

pit.title('Examplel') 

plt.bar (range (len (data)) ,data) 

fo y in zip(range (len (data)),data): 

pl xt(x, y,y, ha-'center', va- 'bottom') # 文 本 注解 

















图 7.28 文本 注解 


74.3 ”样式 与 字体 


matplotlip 自 带 了 一 些 样 式 供用 户 使 用 ， 最 常用 的 是 ggplot 样 式 ， 该 样式 是 参考 R 语 言 中 的 ggplot 库 。 通 过 plt.style.use(ggplot) 国 数 即 可 调用 该 样式 绘图 ， 如 图 7.29 所 示 。 





图 7.29 样式 调用 


matplotlib 默 认为 英文 字体 ， 如 果 绘 制 中 出 现 汉字 就 会 帮 生 乱码 ， 如 图 7.30 所 示 。 


plt. title Ü SE [Bl ) 


Text(0. 5, 1, ' 案例 * ) 


1.0 - 


0.8 - 


0.6 


0.4 - 


图 7.30 ”中 文 乱 码 
OFE: 之 前 调用 的 样式 会 被 保留 。 


因此 需要 指定 matplotlib 的 默认 字体 ， 这 样 就 可 以 解决 中 文 乱码 的 问题 ， 如 图 7.31 所 示 。 代 码 如 下 : 








lt.rcParams['font.sans-serif'] = ['simhei'] # 指 定 默认 字体 
lt.rcParams['axes.unicode minus'] = False # 解 决 保存 图 像 时 人 负 号 
lt.title(' 案 例 ') 














OOO 








' 一 "显示 为 方块 的 问题 





图 7.31 修改 默认 字体 


7.5” 绪 合 示 例 一 一 星巴克 店铺 数据 集 


本 节 以 kaggle 官 网 中 的 星巴克 店铺 数据 为 例 ， 利 用 pandas 数 据 分 析 方 法 ， 通 过 matplotlib 可 视 化 的 手段 ， 分 析 星 巴克 店铺 的 分 布 情况 。 


7.5.1 数据 来 源 


本 例 中 使 用 的 数据 集 可 在 kaggle 网 站 上 https://www.kaggle.com/starbucks/store-locations 下 载 ， 如 图 7.32 所 示 。 


at 下 载 数 据 前 需 注 册 kaggle 账 号 。 


Search kaggle Q Competitions Datasets Kernels Discussion Jobs +»» 


(Z Reviewed Dataset 


iz 
Starbucks Locations Worldwide 


Name, ownership type, and location of every Starbucks store in operation 


Starbucks - last updated a year ago 


Kernels Discussion Activity Download (1 MB) 


E Beer or Coffee in London - To... F Tableau Analysis and dashb... 
Gabriel Preda Ist i 


Exploring Starbucks Stores 21 Exploring Startbucks stores u.. 





图 7.32 ”数据 下 载 


下 载 好 的 CSV 文 件 可 以 通过 pandas 读 取 ， 如 图 7.33 所 示 。 


import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 
Y*matplotlib inline 


starbucks = pd.read csv(open( H:WpythonfHE AR EHE directory. csv', encoding-' utf-8' )) 
starbucks. head () 


Store Store Ownership í Phone 


Brand Number Name Type Street Address City State/Province Country Postcode Nuaiber Timezone Longitude Latitude 


Andorra GMT+1:00 
la Vella AD ADS00 376818720 Europe/Andorra 


47370- Meritxell, 


257954 o6 Licensed Av. Meritxell, 96 


Starbucks 


22331- Ajman 1 Street 58, AJ GMT-*04:00 


Starck — 512325 prieTnru Licensed Wr e -" o NAM  Asia/Dubai 


47089- Sheikh Khalifa GMT+04:00 


Starbucks 256771 Dana Mall Licensed Bin Zayed St Ajman AE NaN NaN Asia/Dubai 


22126- Twofour ; Abu GMT*04:00 
Starbucks 218024 54 Licensed Al Salam Street Dhabi AE NaN NaN Asia/Dubai 


17127- Al Ain Khaldiya Area, Abu GMT«04:00 


AE 


Licensed Abu Dhabi Dhabi Asia/Dubai 


Island 


Starbucks — 475556 Tower 





图 7.33 星巴克 店铺 数据 


以 上 数据 为 kaggle 官 网 上 公开 的 星巴克 在 全 球 的 店铺 数据 。 数 据 的 介绍 信息 可 通过 kaggle 官 网 进行 查看 ， 如 图 7.34 所 示 。 选 择 Data 标 签 后 ， 可 查看 前 100 行 数据 信息 ， 以 及 字段 的 解释 性 信息 。 这 里 主 
要 的 字段 有 : City 为 店铺 所 在 城市 ，State/Province 为 店铺 所 在 的 州 和 省 份 ; Country 为 店铺 所 在 国家 。 


(WO Reviewed Dataset 


Starbucks Locations Worldwide 
Name, ownership type, and location of every Starbucks store in operation 


Starbucks - last updated a year ago 
Overview Kernels Discussion Activity Download (1 MB) 


directory.csv directory.csv 


$. Download All 


» 


State/Province 





图 7.34 星巴克 店铺 数据 信息 


7.5.2 ”定义 问题 


本 次 分 析 中 ， 围 绕 星 巴克 店铺 所 在 地 提出 几 个 问题 : 星巴克 店铺 在 全 球 的 分 布 情况 ; 哪些 国家 星巴克 店铺 较 多 ; 哪些 城市 星巴克 店铺 较 多 ; 星巴克 店铺 在 我 国 的 分 布 情况 。 


7.5.3 Zeit 


针对 City、State/Province 和 Country 地 区 字段 ， 查 看 是 否 有 缺失 值 ， 如 图 7.35 所 示 。 


starbucks. isnull(). sum() 


Brand Q 
Store Number Ó 
Store Name Q 
Ownership Type Ó 
Street Address à 
City 15 
State/Province U 
Country Ó 
Postcode 1522 
Phone Number 6561 
Timezone U 
Longitude 1 
Latitude l 
dtype: int64d 


图 7.35 ”查看 缺失 值 1 


可 以 看 出 ，City 列 有 15 个 缺失 值 ， 这 里 对 这 些 缺 失 值 进行 查看 。 如 图 7.36 所 示 ， 发 现 多 为 埃及 (EG) 国家 ， 这 里 分 析 可 能 是 没有 统计 到 具体 城市 。 为 了 样本 的 完整 性 ， 定 义 填充 函数 ， 用 
State/Province 进 行 填充 ， 如 图 7.37 所 示 。 


然后 查看 Brand 字 段 的 唯一 值 ， 发 现 店铺 并 不 只 有 星巴克 ， 还 有 一 些 其 他 的 店面 ， 但 这 里 是 分 析 星 巴克 店铺 的 信息 ， 所 以 需要 先 “ 清 洗 ” 数 据 ， 然 后 将 清洗 好 的 数据 进行 存储 ， 如 图 7.38 所 示 。 


starbucks[starbucks[ City]. isnu1100] 


Brand 


Starbucks 


Starbucks 


Starbucks 


Starbucks 


Starbucks 


Starbucks 


Starbucks 


def fill na(x): 
reinn x 


starbucks[' City" 


Brand 


Starbucks 


Starbucks 


Starbucks 


Starbucks 


Store 
Number 


31657- 
104436 


32152- 
109504 


32314- 
115172 


31479- 
105246 


31756- 
107161 


1397- 
139244 


32191- 
116645 


Store 
Name 


Ownership 


Type 


Licensed 


Licensed 


Licensed 


Licensed 


Licensed 


Licensed 


Licensed 


Street 
Address 


Qu es 
gai jog 
— Jua zl 
528 £2 

& jx y 
js 


State/Province Country Postcode 


ALX EG 


EG 


图 7.36 ”查看 缺失 值 2 


] = starbucks[’ City]. fillna(fill na(starbucks[ State/Province’ ])) 
starbucks [starbucks[ Country! ]==’ EG ] 


Store 


Number 


31657- 
104436 


15433- 
161464 


25827- 
242606 


26054- 
236446 


Store Name 


Cityscape 


The Corner 


The Hub 


Ownership 
Type 


Licensed 


Licensed 


Licensed 


Licensed 


starbucks[ Brand'].unique() 


Street Address 


E ips CPC 
zs 2) Rs 


6 Of Octobe, EI 
Horya Square, 
Giza 


Zaker Hussein St. 
extension, Plot 
no. 4, Unit... 


Unit no :A1 Front 
of British School, 
6 of oct... 


City State/Province Country 


ALX ALX 


Cairo 


图 7.37 ”填充 缺失 值 


EG 


Phone 
Number 


20120800287 


20120800307 


20185022214 


20120800332 


20120800350 


20120029885 


20185002677 


Number 


20120800287 


Timezone Longitude Latitude 


GMT*2:00 
Africa/Cairo 


GMT*2:00 
Africa/Cairo 


GMT+2:00 
Africa/Cairo 


GMT-*2:00 
Africa/Cairo 


GMT-*2:00 
Africa/Cairo 


GMT+2:00 
Africa/Cairo 


GMT-*2:00 
Africa/Cairo 


Timezone 


GMT+2:00 


Africa/Cairo 


GMT*2:00 


Africa/Cairo 


GMT*2:00 


Africa/Cairo 


GMT+2:00 


Africa/Cairo 


29.96 


31.23 


Longitude 


29.96 


31.35 


31.24 


30.07 








array([ Starbucks’, 'Teavana', 'Evolution Fresh', 'Coffee House Holdings’ ], dtype-object) 


new data = 


starbucks [starbucks [° Brand] == ° Starbucks’ ] 


new data[ Brand’ ]. unique () 


array ([’ Starbucks’ ], dtype-object) 


new data. to csv ( H: XpythonZAHZ ^] 4H AE starbucks. csm , index=False, encoding-' utf-8") 


7.5.4 数据 探索 


图 7.38 ”过 小 数据 


通过 简单 统计 可 以 看 出 ， 星 巴克 店铺 共有 25247 家 分 店 ， 分 布 在 72 个 国家 或 地 区 、5405 个 城市 ， 如 图 7.39 所 示 。 


对 Country 字 段 进行 计数 ， 筛 选 出 店铺 数量 排名 前 10 位 的 国家 ， 如 图 7.40 所 示 。 从 图 中 可 知 ， 美 国 位 居 榜 首 ， 中 国 次 之 。 





starbucks. shape 


(25247, 13) 


len(starbucks[ Country ].unique()) 


T2 


len(starbucks[ City’ ]. unique (0) 





5405 


图 7.39 店铺 基本 情况 


country count = starbucks[ Country ]. value. counts O [0:10] 
country. count 


US 13311 
CN alag 
1415 

12351 

393 


579 
326 
298 
209 
Name: Country, dtype: 


CÀ 
JP 
KR 
GB 901 
Y 
TR 
FH 
TH 





图 7.40 星巴克 分 布 国家 Top10 


通过 下 面 的 代码 绘制 柱状 图 ， 结 果 如 图 7.41 所 示 。 











plt.style.use('ggplot') # 设 置 图 表 样 式 
labels = list(countr y count .index) XE RAE 

plt.xlabel ('Count try) # 设 置 x 轴 标签 
plt.ylabel('Count') # 设 置 Y 轴 标签 
pit.title('C y Top 10") 





























S ;country coun z 
els) ) , labels, fontsize- # 设 置 刻度 和 刻度 标签 





Foire) 
x 
G 
Q 
Q6 
Y 
D 
D 
c 
N 





lnnzs-. 
US CN CA JP KR GB MX IR PH TH 
Country 





图 7.41 星巴克 分 布 国家 Top10 柱 状 图 


对 City 字 段 进行 计数 ， 筛 选 出 店铺 数量 前 10 位 的 城市 ， 如 图 7.42 所 示 。 上 海 市 作为 国际 化 大 都 市 ， 星 巴克 店铺 数量 最 多 ， 多 于 排名 第 2 的 城市 将 近 300 家 ， 而 西雅图 作为 星巴克 的 总 部 城市 ， 排 于 第 10 


city count = starbucks[ City ].value counts() [0:10] 
clty count 


上 海 市 542 
Seoul 243 


北京 市 234 
New York 290 


London 215 
Toronto 186 
Mexico City 180 
Chicago 179 
Las Vegas 153 
seattle 151 
Name: City, dtype: int64 





图 7.42 星巴克 分 布 城市 Top10 
Aik: 图 中 的 Mexico City 指 墨西哥 的 一 些 城市 分 布 ， 数 据 集 中 将 其 算 在 一 起 了 。 


过 下 面 的 代码 绘制 柱状 图 ， 如 图 7.43 所 示 。 












































plt.figure (figsize=(10, 6)) # 设 置 图 片 大 小 
plt.rcParams['font.sans-serif'] = ['simhei'] # 指 定 默 认 字体 

pi t.rcParams[' axes.unicode minus'] - False 

labels = list(city count.index) 3X EE AE 

plt.xlabel('City') # 设 置 X 轴 标签 
plt.ylabel ('Count') # 设 置 Y 轴 标签 
pit.title('City Top 10') 

plt.bar (range (len(labels)),city count) 

plt.xticks (range (len (labels) ), labels) #i 设 置 刻度 和 刻度 标签 

















上 海 市 ”Seoul 北京 市 New York London Toronto Mexico City Chicago Las Vegas Seattle 
City 


图 7.43 ”星巴克 分 布 城市 Top10 柱 状 图 





为 了 分 析 星 巴克 店铺 在 我 国 的 分 布 情况 ， 提 取 其 中 国 的 店铺 数据 进行 单独 存储 ， 如 图 7.44 所 示 。 


china data = starbucks[starbucks[ Country ] == * CN ] 
china data. head() 


Brand 


Starbucks 


Starbucks 


Starbucks 


Starbucks 


Starbucks 


Store 


Number 


22901- 
225145 


32320- 
116537 


32447- 
132306 


17477- 
161286 


24520- 
237564 


Store 
Name 


北京 四 站 
SE} 
店 


北京 华 字 
时 尚 店 


ILRES 
mSEXh 
BUE 


北京 太阳 
EHE 
mu 


北京 东 二 
环北 店 


Ownership 


Type 


Company 
Owned 


Company 
Owned 


Company 
Owned 


Company 
Owned 


Company 
Owned 


Street Address 


ESK, 北京 本 站 通 亡 7-1 号 ， 
DFA Ang 


海 证 区 , 2408 BERE SSH] 
尚 购 物 中 心 内 , eaa 
ERIS[X 1EEC 1-3887: BE. 


BRI SRIE Z^ ERR S, — Hm 
C1-3 羊 元 及 二 层 阳 台 , 太阳 
Em 


朝阳 区 , 太阳 言 凯 德 壳 茂 一 
501-44/455. 车 三 环北 路 
273 


朝阳 区 , £EEE PUTATE 
B1/2024ms$, 金融 大 街 7 号 


City State/Province Country 


北 
京 
市 
北 
京 
市 
北 
京 
市 


china data. to csv( H: py thonZAHE 4 THE en starbucks. csv , index-False, encoding=”utf-8” ) 


对 City 字 段 进 行 计 数 ， 筛 选 出 星巴克 中 国 店铺 数量 前 10 位 的 城市 ， 如 图 7.45 所 示 。 星 巴克 作为 “小 资 ”的 标志 ， 所 以 选 址 间接 地 反映 了 当地 的 经 济 实力 。 在 中 国 , db Gm) . E G8) 、 广 ( 州 ) 、 深 


( 圳 ) 城市 的 店铺 排名 都 是 靠 前 的 ， 这 与 当地 的 经 济 实力 有 密切 的 关系 。 


图 7.44 星巴克 中 国 分 布 信息 





city count = cn starbucks[ City ].value counts) [0:10] 
city count 


sm 
北京 市 
gom 
深圳 市 


广州 市 
香港 特别 行政 区 104 


成 都 市 
苏州 市 
南京 市 
武汉 市 


542 
23d 
lir 
113 
106 


Js 
au 
T3 
BT 


Name: City, dtype: int&4d 


通过 下 面 的 代码 绘制 柱状 图 ， 如 图 7.46 所 示 。 


图 7.45 星巴克 中 国 分 布 城市 Top10 








lt.rcParams['font.sans-serif'] = ['simhei'] # 指 定 默 认 字体 
|Dt.rcParams['axes.unicode minus'] = False 

abels = list(city count.index) # 刻 度 标签 

t.xlabel ('City') # 设 置 X 轴 标签 
t.ylabel('Count!) # 设 置 Y 轴 标签 
1t.title(' 星 巴克 各 城市 分 布 ') 

t.barh (range (len (1abels)) 
t.yticks (range (len (labels 








H'O CO 























city count) 
) ) , labels) # 设 置 刻度 和 刻度 标签 











T'o o o, 








星巴克 中 国 Top 10 城 市 分 布 


武汉 市 ANN 
南京 市 -让 
苏州 市 E 
ju NEN 
香港 特别 行政 区 - 国 


广州 市 a 

深圳 市 - 革 

杭州 市 - 国 

北京 市 NN 

Lin BEEN 777 


100 200 300 400 500 
Count 





图 7.46 星巴克 中 国 分 布 城市 Top10 柱 状 图 


第 8 章 seaborn 可 视 化 


seaborn 其 实 是 在 matplotlib 的 基础 上 进行 了 更 高 级 的 AP 封装 ， 从 而 使 绘图 更 容易 、 更 美观 。 本 章 首先 讲解 如 何 使 用 seaborn 样 式 和 分 布 图 ， 并 介绍 如 何 使 用 seaborn 绘 制 分 类 图 ; 然后 介绍 回归 图 的 
绘制 和 网 格 技术 ; 最 后 通过 一 个 综合 示例 ， 巩 国 seaborn 的 可 视 化 方法 和 技巧 。 


下 面 给 出 本 章 涉及 的 知识 点 与 学 习 目 标 。 
: 样式 与 分 布 图 : 学 会 seabotn 的 样式 和 分 布 图 的 绘制 方法 。 
` 分 类 图 : 学 会 利用 seaborn 绘 制 分 类 图 。 


: 回归 图 与 网 格 : 学 会 绘制 回归 图 和 网 格 技术 。 


8.1 样式 与 分 布 图 


本 节 主 要 介绍 seaborn 中 设 定好 的 5 种 主题 样式 ， 并 介绍 怎样 自 定义 样式 ， 讲 解 如 何 通过 seaborn 绘 制 分 布 图 。 


8.1.1 ”seaborn 样 式 


seaborn 中 有 预先 设计 好 的 5 种 主题 样式 : darkgrid、dark、whitegrid、white 和 Qticks， 上 默认 使 用 darkgrid 主 题 样式 。 首 先 使 用 matplotlib 库 进行 绘图 ， 如 图 8.1 所 示 为 matplotlib 默 认 的 样式 。 





import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 
import seaborn as sns 
$matplotlib inline 


# 导 入 对 应 的 库 


years = [1950, 1960, 1970, 1980, 1990, 2000, 2010] 
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3] 

















# 定 义 数据 


plt.scatter(years, gdp) 
会 图 


zm 






































1950 1960 1970 1980 1990 2000 


图 8.1 matplotlib 默 认 样 式 





通过 set_ style 方法 可 以 进行 主题 样式 的 设置 ， 这 里 使 用 darkgrid 主 题 ， 与 matplotlib 的 默认 样式 进行 对 比 。 如 图 8.2 所 示 ， 可 以 看 出 图 中 增加 了 灰白 色 的 背景 和 网 格 线 。 


sns.set style("darkgrid") 
plt.scatter(years, gdp) 


而 使 用 dark 主 题 就 不 会 有 网 格 线 ， 如 图 8.3 所 示 。 


sns.set style ("dark") 
plt.scatter (years, gdp) 


1950 1960 1970 1980 1990 2000 2010 


图 8.2” darkgrid 主 题 





1950 1960 1970 1980 1990 2000 2010 


图 8.3 dark x. Z& 





Dig: 其余 样式 读者 可 以 自行 测试。 


在 seaborn 中 ，set 方 法 更 为 常用 ， 因 为 其 可 以 同时 设置 主题 、 调 色 板 等 多 个 样式 。style 参 数 为 主题 设置 ; palette 参 数 用 于 设置 调 色 板 ， 当 设置 不 同 的 调 色 板 时 ， 使 用 的 图 表 颜 色 也 不 同 ; color_codes 
参数 设置 颜色 代码 ， 设 置 过 后 ， 可 以 使 用 r、g 来 设置 颜色 ， 如 图 8.4 所 示 。 





sns.set (style="white", palette="muted", color codes=True) 


plt.plot (np.arange (10)) 
#style 为 主题 

#palette 为 调 色 板 

# color_coqes 为 颜色 代码 














图 8.4 通过 set 方 法 绘制 


8.1.2 ”坐标 轴 移 除 


在 seaborn 主 题 中 ，white 和 ticks 主 题 都 会 存在 4 个 坐标 轴 。 在 matplotlib 中 是 无 法 去 掉 多 余 的 顶部 和 右 侧 坐标 轴 的 ， 而 在 seaborn 中 却 可 以 使 用 despine 方 法 轻松 地 去 除 ， 如 图 8.5 所 示 。 








sns.set(style-"white", palette-"muted", color codes-True) 
plt.plot (np.arange (10)) 
sns.despine|() 








使 用 despine 方 法 可 以 对 坐标 轴 进 行 更 有 趣 的 变化 ， 设 置 offset 参 数 可 以 偏 移 坐 标 轴 ，trim 参 数 可 修剪 刻度 ， 如 图 8.6 所 示 。 








sns.set (style="white", palette="muted", color codes=True) 
plt.plot (np.arange( 
sns.despine (of 





LO) ) 








Fset-] 





0, trim-True) 








通过 despine 方 法 绘制 1 





图 8.6 ”通过 despine 方 法 绘制 2 


当然 也 可 以 指定 移 除 哪些 坐标 轴 ， 如 图 8.7 所 示 。 








sns.set(style-"whitegrid", palette-"muted", color codes-True) 


pit.plot (np.arange (10) ) 
Ft-True, bottom-True) 


sns.despine (le 








图 8.7 通过 despine 方 法 绘制 3 


8.1.3” 单 变量 分 布 图 


在 接 下 来 的 seaborn 可 视 化 中 ， 使 用 seaborn 中 自 带 的 小 费 数据 集 ， 首 先 将 其 读 入 DataFrame 中 ， 如 图 8.8 所 示 。 


tips=sns. load dataset( tips') 
tips. head () 


total bill tip sex smoker day time size 


1699 101 Female No Sun Dinner 


10.34 1.66 Male No Sun Dinner 
21.01 3.50 Male No Sun Dinner 
2368 3.31 Male No Sun Dinner 
2459 361 Female No Sun Dinner 





图 8.8 小 费 数 据 集 


AH: 小 费 数 据 集 中 ，total_b 记 为 消费 总 金额 ; tip 为 小 费 ; sex 为 顾客 性 别 ; smoket 为 顾客 是 否 抽烟 ; day 为 消费 的 星期 ，time 为 聚餐 的 时 间 段 ，size 为 聚餐 人 数 。 


对 于 单 变量 分 布 图 的 绘制 ， 在 seaborn 中 使 用 distplot 函 数 。 默 认 情 况 下 会 绘制 一 个 直方 图 ， 并 由 套 一 个 与 之 对 应 的 密度 图 。 这 里 绘制 total_bill 的 分 布 图 ， 如 图 8.9 所 示 。 


sns.set(color codes-True) 
sns.distplot(tips['total bill']) 


10 20 30 
total bill 


图 8.9 ”通过 distplot 方 法 绘制 1 





利用 distplot 方 法 绘制 的 直方 图 与 matplotlib 是 类 似 的 。 在 ditplot 的 参数 中 ， 可 以 选择 不 绘制 密度 图 。 这 里 使 用 rug 参 数 绘制 毛 悉 图 ， 其 可 以 为 每 个 观测 值 绘制 小 细 线 (边际 毛毯 ) ， 也 可 以 单独 用 
rugplot 进 行 绘制 ， 如 图 8.10 所 示 。 


sns.distplot(tips['total bill'], kde-False, rug-True) 
# 不 绘制 kde， 绘 制 rug 








在 matplotlib 中 ， 可 以 通过 bins 参 数 来 设置 分 段 。 在 distplot 方 法 中 也 是 同样 的 设置 方法 ， 如 图 8.11 所 示 。 


sns.distplot(tips['total bill'],bins-30, kde-False, rug-True) 





20 30 
total bill 


图 8.10 ”通过 qistplot 方 法 绘制 2 





20 30 
total bill 





图 8.11 通过 distplot 方 法 绘制 3 


如 果 设 置 hist 为 False， 就 可 以 去 掉 直 方 图 而 绘制 密度 图 ， 如 图 8.12 所 示 。 





sns.distplot(tips['total bill'], hist-False, rug-True) 








i&iddistploteE TEASE SUE; Ed. FERMERE, (PRENERA NMR RER. Ern, kdeplote&ZkeTL£z elus, rugp% AEK. Tm matplotlibksubplots 
冰 数 创建 两 个 子 图 ， 然 后 分 别 用 distplot 函 数 绘 制 对 应 的 分 布 图 表 ， 如 图 8.13 所 示 。 























fig, axes = plt.subplots (1,2,figsize=(10, 5)) # 设 置 子 图 和 图 表 大 小 
sns.distplot(tips['total bill'], ax = axes[0], kde = False) 
sns.rugplot(tips['total bill'], ax = axes[0]) 

sns.kdeplot(tips['total bill'], ax = axes[1]，shade=True)# 设 置 shade 加 阴影 
sns.rugplot(tips['total bill'], ax = axes[1]) 
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图 8.12 ”通过 distplot 方 法 绘制 4 


—— total bill 


40 


30 


20 


10 


o | | Less LLL RR | 
10 20 30 40 50 10 20 30 40 50 60 





total bill 


图 8.13 ”各 类 分 布 图 


在 matplotlib 中 ， 为 了 绘制 两 个 变量 的 分 布 关系 ， 常 使 用 散 点 图 的 方法 。 在 seaborn 中 ， 使 用 jointplot 函 数 绘制 一 个 多 面板 图 ， 不 仅 可 以 显示 两 个 变量 的 关系 ， 也 可 以 显示 每 个 单 变量 的 分 布 情 况 。 


下 面 绘制 tip 和 total_bill 的 分 布 图 ， 如 图 8.14 所 示 。 这 里 除了 有 散 点 图 外 ， 还 有 两 个 变量 的 直方 图 。 





sns.jointplot(x-"tip", y-"total bill", data-tips) 





#x 和 y 是 列 名 
#data 是 数据 来 源 ， 这 里 是 小 费 的 DataFrame 











50 pearsonr=0.68; p=6.7e-34 


A 
© 


UJ 
o 


total bill 


l2 
© 





图 8.14  i&iijointplotif žk 22811 
在 jointplot 函 数 中 ， 改 变 kind 参 数 为 kKde (密度 图 ) ， 单 变量 的 分 布 就 会 用 密度 图 来 代 蔡 ， 而 散 点 图 会 被 等 高 线 图 代 蔡 ， 如 图 8.15 所 示 。 


sns.jointplot(x-"tip", y-"total bill", data-tips, kind-'kde') 


10 





pearsonr-0.68; p-6.7e-34 





ti 
图 8.15 ”通过 jointplot 函 数 绘制 2 


在 数据 集中 ， 如 果 要 体现 多 变量 的 分 布 情况 ， 就 需要 成 对 的 二 元 分 布 图 。 在 seaborn 中 ， 可 以 使 用 pairplot 函 数 来 完成 二 元 分 布 图 ， 该 消 数 会 创建 一 个 轴 答 阵 ， 以 此 显示 DataFrame 中 每 两 列 的 关系 ， 
在 对 角 上 为 单 变量 的 分 布 情况 。 


pairplot 函 数 只 对 数值 类 型 的 列 有 效 。 如 图 8.16 所 示 为 绘制 小 费 数据 集 的 多 变量 分 布 情况 图 : 代码 如 下 : 


sns.pairplot (tips) 
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B816 小费 数据 集 多 变量 分 布 图 


8.2 分 类 图 


本 节 讲 解 分 类 数据 的 可 视 化 技术 ， 主 要 介绍 在 seaborn 中 如 何 绘制 分 类 散 点 图 、 箱 线 图 、 琴 形 图 和 柱状 图 。 


8.2.1 分 类 散 点 图 


在 seaborn 中 ， 通 过 stripplot 函 数 可 以 显示 度量 变量 在 每 个 类 别 的 值 。 在 小 费 数据 集中 ， 显 示 total_bil 在 day 上 的 值 的 分 布 ， 效 果 如 图 8.17 所 示 。 代 码 如 下 : 





sns.set(style-"white", color codes-True) # 设 置 样式 
sns.stripplot (x="day", y="total bill", data=tips) 
sns .despine () # 去 坐标 轴 
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图 8.17 W it stripplotifs Zt 22-9]1 
从 图 8.17 中 可 以 看 出 ， 散 点 图 中 由 于 数据 较 多 ， 很 多 散 点 都 会 被 覆 藉 。 这 时 可 以 加 入 拌 动 (iter-True) ， 这 样 就 可 以 看 清 多 数 数据 点 ， 效 果 如 图 8.18 所 示 。 代 码 如 下 : 


sns.stripplot(x-"day", y-"total bill", data-tips, jitter-True) 
sns.despine|() 





如 果 需 要 看 清 每 个 数据 点 ， 可 以 使 用 swarmplot 函 数 ， 效 果 如 图 8.19 所 示 。 代 码 如 下 : 





sns.swarmplot(x-"day", y-"total bill", data-tips) 
sns.despine|() 
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图 8.18 stripplot 函 数 绘制 2 
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图 8.19  swarmplotz& Zt 22-58] 1 


通过 swarmplot 函 数 的 hue 参 数 可 以 多 蔡 套 一 个 分 类 变量 ， 在 图 表 中 会 以 不 同 的 色彩 来 表现 ， 如 图 8.20 所 示 。 





sns.swarmplot(x-"day", y-"total bill", hue-"sex", data-tips) 
sns.despine|() 
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图 8.20 swarmplotžı Zt A %2 


8.2.2 ” 箱 线 图 与 琴 形 图 


在 某 些 情况 下 ,分 类 散 点 图 表达 的 值 的 分 布 信息 有 限 ， 这 时 就 需要 一 些 其 他 的 绘图 图 形 。 箱 线 图 就 是 一 个 不 错 的 选择 ， 箱 线 图 可 以 观察 四 分 位 数 、 中 位 数 和 极 值 。 在 seaborn 中 使 用 boxplot 函 数 来 绘制 
箱 线 图 ， 效 果 如 图 8.21 所 示 。 代 码 如 下 : 


sns.boxplot (x="day", y-"total bill", hue="time", data-tips) 
sns.despine|() 
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图 8.21 箱 线 图 


琴 形 图 结合 了 箱 线 图 与 核 密度 估计 图 ， 在 seaborn 中 ， 使 用 violin plot 来 绘制 琴 形 图 ， 效 果 如 图 8.22 所 示 。 代 码 如 下 : 





sns.set(style-"whitegrid", color codes-True) 
sns.violinplot(x-"total bill", y-"day", hue="time", data-tips) 


#x 和 y 轴 颠倒 
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E822 ZAI 


利用 split 参 数 可 以 将 分 类 数据 进行 切 分 ， 这 样 绘制 的 琴 形 图 两 边 的 颜色 就 代表 了 不 同 的 类 别 ; 在 琴 形 图 中 ， 利 用 inner 参 数 可 以 对 每 个 数据 进行 可 视 化 ， 而 不 是 只 能 查看 箱 线 图 的 那 几 个 统计 值 ， 效 果 如 
图 8.23 所 示 。 代 码 如 下 : 








sns.set(style-"whitegrid", color codes-True) 
fig, axes - plt.subplots(1,2,figsize-(10, 5)) 
# 设 置 样式 与 子 图 














sns.violinplot (x="day", y-"total bill", hue="sex", data-tips, 
split-True, ax-axes[0]) 
# 对 数据 切 分 





sns.violinplot(x-"day", y-"total bill", hue-"sex", data-tips, 
split-True, inner-"stick", palette-"Set3",ax-axes[1]) 


# 对 数据 切 分 并 对 每 个 数据 可 视 化 














这 些 分 类 图 函数 可 以 相互 组 合 ， 实 现 更 加 强大 的 可 视 化 效果 ， 效 果 如 图 8.24 所 示 。 代 码 如 下 : 





sns.set (style="whitegrid", color codes=True) 
fig, axes = plt.subplots(1,2,figsize-(10, 5)) 
# 设 置 样式 与 子 图 











sns.violinplot (x="day", y="total bill", data=tips, 


inner-None, ax-axes[0]) 
#inner 内 部 不 填充 
sns.swarmplot (x="day", y-"total bill", data-tips, 
color-"w", alpha-.5, ax-axes[0]) 





sns.boxplot(x-"day", y-"total bill", data-tips, ax-axes[1]) 
sns.stripplot(x-"day", y-"total bill", data-tips, 
jitter-True, color-"w", alpha-.5, ax-axes[1]) 
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图 8.23 ZEN 
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图 8.24 ”分 类 图 组 合 


8.2.3 柱状 图 


在 seaborn 中 使 用 barplot 函 数 来 绘制 柱状 图 ， 默 认 情况 下 使 用 barplot 函 数 绘制 的 y 轴 是 平均 值 ， 且 在 每 个 柱状 条 上 会 绘制 误差 条 ， 如 图 8.25 所 示 。 


sns.barplot(x-"sex", y-"tip", hue-"day", data-tips) 





Female 





图 8.25 ”使 用 batplot 函 数 绘制 柱状 图 
在 柱状 图 中 ， 常 绘制 类 别 的 计数 柱状 图 。 如 果 使 用 matplotlib 函 数 进行 绘制 ， 首 先 需要 对 DataFrame 进 行 计算 ; 而 在 seaborn 中 ,使 用 countplot 函 数 即 可 ， 如 图 8.26 所 示 。 


ns.countplot (x-"size",data-tips, palette-"Greens d") 


S 
# 绿 色 渐 变调 色 板 





图 8.26 ”使 用 countplot 函 数 绘制 柱状 图 


8.3 回归 图 与 网 格 


本 节 将 讲解 如 何 利用 seaborn 绘 制 回归 图 来 揭示 两 个 变量 间 的 线性 关系 ， 以 及 如 何 利用 网 格 技术 绘制 多 子 图 。 


8.3.1 回归 图 


在 seaborn 中 ， 使 用 jointplot 函 数 可 以 显示 两 个 变量 的 联合 分 布 情况 ， 使 用 统计 模型 来 估计 两 个 变量 间 的 简单 关系 也 是 非常 有 必要 的 。 可 以 使 用 regplot 和 Implot 函 数 来 绘制 回归 图 ， 其 绘制 的 图 表 是 一 
样 的 ， 如 图 8.27 所 示 。 


sns.set(style-"darkgrid", color codes-True) 
sns.regplot(x-"total bill", y-"tip", data-tips) 








sns.lmplot(x-"total bill", yz"tip", data-tips) 


total bill 





图 8.27 回归 图 1 
AHE: regplotfelmplot $ Zr A 84 24 18 36- 2 8878 A F] o 
在 回归 图 中 ， 也 可 以 不 绘制 置信 区 间 ， 如 图 8.28 所 示 。 


sns.lmplot(x-"total bill", yz"tip", data-tips, ci-None) 





在 上 面 的 回归 图 中 显示 的 是 一 对 变量 间 的 关系 ， 使 用 hue 参 数 可 以 加 入 一 个 分 类 的 变量 ， 通 过 不 同 颜色 来 表现 ， 效 果 如 图 8.29 所 示 。 代 码 如 下 : 


sns.lmplot(x-"total bill", y="tip", hue="smoker", data=tips) 
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图 8.28 回归 图 2 


50 





total bill 


图 8.29 ”回归 图 3 
如 果 添加 一 个 变量 ， 可 以 绘制 子 图 ， 效 果 如 图 8.30 所 示 。 代 码 如 下 : 


sns.lmplot(x-"total bill", y="tip", hue-"smoker", col="time", data-tips) 


同样 再 添加 两 个 变量 ， 效 果 如 图 8.31 所 示 。 代 码 如 下 : 





sns.lmplot(x-"total bill", y-"tip", hue-"smoker", 
col-"time", row-"sex", data-tips) 
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total bill total bill 





图 8.30 ”回归 图 4 


sex=Male | time =Lunch sex-Male | time-Dinner 


14 14 
12 12 
10 10 = 





一 人 - 

0 10 20 30 40 50 0 10 20 30 40 so moker 
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图 8.31 回归 图 5 


8.3.2 网 格 
在 对 多 维度 数据 进行 可 视 化 时 ， 在 数据 集 的 不 同 子 集 上 绘制 同一 个 绘图 的 多 个 实例 是 一 件 非 常 有 用 的 事情 ， 这 种 技术 被 称 为 网 格 技术 。 在 seaborn 中 ， 使 用 FacetGrid 来 创建 对 象 ， 然 后 使 用 map 方 法 就 


可 以 绘制 多 个 实例 图 表 了 ， 效 果 如 图 8.32 所 示 。 代 码 如 下 : 


g = sns.FacetGrid(tips, col-"time") 
g.map(plt.hist, "tip") 


time-Dinner 


time-Lunch 





图 8.32 ”网 格 技术 绘图 1 
matplotlib 的 基本 图 形 都 可 以 在 该 对 象 中 绘制 ， 如 图 8.33 所 示 为 绘制 的 散 点 图 。 代 码 如 下 : 


g = sns.FacetGrid(tips, col="sex", hue="smoker") 
g.map(plt.scatter, "total bill", "tip", alpha-.7) 


g.add legend() 
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图 8.33 ”网 格 技术 绘图 2 


同样 ， 也 可 以 添加 多 个 变量 用 于 绘制 多 个 图 表 ， 效 果 如 图 8.34 所 示 。 代 码 如 下 : 


g = sns.FacetGrid(tips, col-2"sex", row-'time') 
g.map(sns.boxplot, 'size', 'tip') 
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图 8.34 网 格 技术 绘图 3 





8.4 综合 示例 一 一 泰坦 尼克 号 生还 者 数据 


本 节 以 泰坦 尼克 号 的 生还 者 数据 为 例 ， 讲 解 saborn 的 可 视 化 方法 和 技巧 。 


8.4.1 数据 来 源 


本 例 使 用 seaborn 中 自 带 的 泰坦 尼克 号 生还 乘客 的 数据 集 ， 如 图 8.35 所 示 。 
其 中 ， 主 要 的 字段 有 : survived 和 alive 为 乘客 的 生还 情况 ; pclass 与 class 为 船舱 等 级 ; sex 和 who 为 乘客 性 别 ; age 为 乘客 年 龄 ; silpsp 和 parch 为 是 否 带 有 家 属 ， 后 面 统一 用 alone 字 段 代 表 是 否 有 家 


inport numpy as np 

inport pandas as pd 

inport seaborn as sns 

inport matplotlib.pvplot as plt 
*matplotlib inline 


titanic = sns.load dataset(" titanic") 
titanic.head 


survived pclass sex age sibsp parch fare embarked class who adult male deck embark town 


0 3 | male 220 1 7.2500 Third man True Southampton 
1 1 female 38.0 1 71.2833 First woman False Cherbourg 
female 26.0 7.9250 Third woman False Southampton 

female 35.0 53.1000 First woman False Southampton 

male 35.0 8.0500 Third man True Southampton 





图 8.35 “数据 情况 


Corm: 这 里 的 数据 与 kaggle 上 的 竞赛 题 略 有 不 同 , 已 进行 过 处 理 。 


84.2 ”定义 问题 


本 次 分 析 中 提出 两 个 问题 : 泰坦 里 克 号 乘客 的 基本 信息 分 布 情况 ; 乘客 的 信息 与 生还 数据 是 否 有 关联 。 


8.4.3 ”数据 清洗 


首先 查看 是 否 有 缺失 值 ， 如 图 8.36 所 示 。 


titanic.isnullO.sumQ 
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图 8.36 ”查看 缺失 值 


然后 对 年 龄 缺失 值 进行 处 理 。 通 过 seaborn 的 distplot 函 数 查 看 乘客 的 年 龄 分 布 ， 效 果 如 图 8.37 所 示 。 代 码 如 下 : 





sns.set(style-"darkgrid", palette-"muted", color codes-True) 
sns.distplot (titanic[titanic['age'].notnull()]['age']) 











图 8.37 “年龄 分 布 


这 里 发 现年 龄 呈正 态 分 布 ， 于 是 用 年 龄 的 均值 进行 缺失 值 的 填充 ， 再 进行 年 龄 分 布 的 可 视 化 ， 效 果 如 图 8.38 所 示 。 代 码 如 下 : 





titanic['age'] = titanic['age'].fillna(titanic['age'].mean()) 
sns.distplot (titanic['age']) 








图 8.38 ”年龄 插值 


然后 利用 countplo 方 法 对 embarked 进 行 可 视 化 ， 效 果 如 图 8.39 所 示 。 代 码 如 下 : 


sns.countplot (x-"embarked",data-titanic) 


C 
embarked 





图 8.39 ” embarked 计数 


接着 再 利用 正确 的 登 船 地 点 9 进行 缺失 值 的 填充 ， 效 果 如 图 8.40 所 示 。 代 码 如 下 : 


titanic[ enbarke 中 ] = titanic[ embarked’ ]. fillna(C S) 
titanic.ismnullO. sum 


survived 
pclass 

Sex 

age 

slbsp 

parch 

fare 
embarked 
class 

who 

adult male 
deck 
embark town 
alive 

alone 
dtype: inted 
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图 8.40 填充 embatked 字 段 


对 于 deck 字 段 ， 由 于 缺失 值 太 多 ， 因 此 将 其 删除 ;数据 中 有 许多 多 余 字 段 ， 在 这 里 一 次 性 进行 删除 。 如 图 8.41 所 示 为 数据 清洗 后 的 数据 。 代 码 如 下 : 





titanic 











citanic.drop(['survived','pclas 
adult male','deck','embark town'],ax 
i ic.head() 








age fare embarked class 
0 male 220  /.2500 S Third 
1 female 35.0 /1.2533 First 


2 female 260 7/9250 | Third 
3 female 35.0 53.1000 S First yes 
4 male 35.0 5.0500 3 Third no 





图 8.41 清洗 后 的 数据 


8.4.4 ”数据 探索 


首先 可 视 化 乘客 的 性 别 分布 ， 效 果 如 图 8.42 所 示 。 由 图 可 知 ， 男 性 乘客 比 女性 乘客 更 多 一 些 。 代 码 如 下 : 


sns.countplot (x-"sex",data-titanic) 


female 





图 8.42 性别 分 布 


然后 结合 性 别 ， 绘 制 乘客 年 龄 分 布 箱 线 图 ， 效 果 如 图 8.43 所 示 。 由 图 可 以 看 出 ， 男 性 与 女性 的 年 龄 分 布 很 接近 ， 但 女性 乘客 的 年 龄 跨度 更 大 一 些 。 代 码 如 下 : 


sns.boxplot (x-'sex',y-'age',data-titanic) 


接着 对 船舱 等 级 进行 计数 ， 效 果 如 图 8.44 所 示 。 由 图 可 以 看 出 ， 第 三 级 船舱 数量 最 多 。 代 码 如 下 : 


sns.countplot (x-"class",data-titanic) 





female 





图 8.43 性别、 年 龄 分 布 箱 线 图 


Second 
class 





图 8.44 船舱 等 级 数量 分 布 


然后 再 结合 船舱 等 级 ， 绘 制 乘 客 年 龄 分 布 箱 线 图 ， 效 果 如 图 8.45 所 示 。 由 图 中 可 以 看 出 ， 头 等 舱 的 年 龄 跨度 较 大 ， 第 三 级 船舱 的 中 年 人 分 布 最 多 。 代 码 如 下 : 


sns.violinplot (x-"class", y-"age", data-titanic) 





接着 对 alone 字 段 进行 计数 ， 效 果 如 图 8.46 所 示 》 由 图 可 以 看 出 ， 单 独 的 乘客 数量 更 多 一 些 。 代 码 如 下 : 





sns.countplot (x-"alone",data-titanic) 


Second 
Class 


W845 A50 E LAE IR ZR 








图 8.46 aloneZ p 


接 下 来 重点 分 析 生 还 乘客 与 其 他 字段 之 间 是 否 有 关联 。 首 先 ， 对 生还 字段 计数 可 视 化 ， 效 果 如 图 8.47 所 示 。 从 图 中 可 以 看 出 ， 未 生还 的 乘客 人 数 更 多 一 些 。 代 码 如 下 : 


sns.countplot (x-"alive",data-titanic) 


一 般 ， 女 性 在 特殊 情况 下 会 被 优先 考虑 。 如 图 8.48 所 示 ， 生 还 乘客 中 女性 占 大 多 数 ， 代 码 如 下 : 


sns.countplot (x-'alive',hue-'sex',data-titanic) 








利用 网 格 技术 ， 可 以 进行 更 好 的 对 比 ， 效 果 如 图 8.49 所 示 。 代 码 如 下 : 





图 8.47 ”生还 乘客 分 布 


SeX 
mW male 


—— female 


female male female 


yes 


图 8.48 ”乘客 性 别 与 生还 关系 1 








g = sns.FacetGrid(titanic, col-'sex') 


g.map(sns.countplot, 'alive') 





此 外 ， 老 人 和 小 孩 也 是 优先 考虑 的 对 象 ， 因 此 这 里 对 年 龄 进行 分 级 ， 分 开 小 孩 和 老人 的 数据 ， 数 据 如 图 8.50 所 示 。 代 码 如 下 : 








def agelevel (age): 
if 








elif age >= 60: 

return 'aged' 
else: 
return 'midlife' 

















titanic['age level'] = titanic['age'].map (agelevel) 


sex-male sex-female 





图 8.49 ”乘客 性 别 与 生还 关系 2 


titanic.headO 


sex age fare embarked class alive alone age level 


male 220 7.2500 Third no False 


female 38.0 71.2833 First False 
female 26.0 7.9250 Third True 
female 35.0 53.1000 First False 

male 35.0 8.0500 Third True 


图 8.50 ”年龄 分 级 


然后 对 分 级 后 的 年 龄 进行 可 视 化 ， 效 果 如 图 8.51 所 示 。 由 图 可 以 看 出 ， 成 年 人 乘客 数量 占 比 很 大 ， 而 小 孩 和 年 长 乘客 的 占 比较 小 。 代 码 如 下 : 


sns.countplot (x-'age level',data-titanic) 


midlife 
midlife 
midlife 
midlife 


midlife 








如 图 8.52 所 示 ， 乘 客 年 龄 与 生还 乘客 之 间 的 关系 并 不 明显 ， 但 小 孩 的 生还 几率 还 是 比较 大 的 ， 而 老人 却 相对 更 小 。 


sns.countplot (x-'alive',hue-'age level',data-titanic) 





midlife child 
age level 


图 8.51 乘客 年 龄 等 级 分 布 


a midlife 
=== child 
mw aged 


midlife child aged midlife child 





no alive yes 


图 8.52 ”乘客 年 龄 与 生还 关系 


最 后 结合 class 和 alone 字 段 进行 分 析 ， 效 果 如 图 8.53 所 示 。 由 图 可 以 看 出 ， 乘 客舱 位 等 级 越 高 ， 生 还 的 几率 越 大 ， 单 独 的 乘客 生还 的 几率 也 更 大 一 些 。 代 码 如 下 : 





age level 


aged 





g = sns.FacetGrid(titanic, col-'class', row-'alone') 
g.map(sns.countplot, 'alive') 





alone-False | class—First alone-False | class-Second alone-False | class-Third 
250 


200 


150 


100 
mE , 
mum UH mmm | EE 
yes no yes no yes no 


alone- True | class-First alone- True | class-Second alone- True | class- Third 


250 

200 

150 

100 

0 
yes no 


alive 





图 8.53 ”舱位 等 级 (class) 、 是 否 有 家 属 (alone) 字段 与 生还 关系 


第 9 章 ”pyecharts 可 视 化 


pyecharts 是 一 个 用 于 生成 Echarts 图 表 的 类 库 ; 而 Echarts 是 百度 开源 的 一 个 数据 可 视 化 JavaScnpt 库 。 使 用 pyecharts 绘 制 的 图 表 美 观 且 具有 交互 性 。 本 章 首 先 讲解 如 何 安装 pyecharts 库 ;如 何 使 用 
pyecharts 库 绘制 基本 图 表 ; 如 何 绘 制 其 他 各 类 图 表 。 最 后 通过 一 个 综合 示例 ， 巩 固 pyecharts 的 绘制 方法 和 技巧 。 


下 面 给 出 本 章 涉及 的 知识 点 与 学 习 目 标 。 
: pyechatts 库 : 学 会 该 库 的 安装 和 基本 用 法 。 


其 他 图 表 : 学 会 绘制 饼 图 和 箱 线 图 。 


9.1 ”基础 图 表 


pyecharts 绘 制 的 图 表 不 仅 美观 而 且 操 作 简 单 。 本 节 将 讲解 如 何 通过 pip 工 具 安装 pyecharts 库 ， 并 介绍 绘制 散 点 图 、 折 线 图 和 柱状 图 的 方法 。 


9.1.1 pyecharts 安 装 


pyecharts 库 使 用 PIP 工 具 安 装 即 可 ， 具 体 见 图 9.1 所 示 。 


NE BEC: Anaconda Prompt (data-analysis) 


IURE TRIB IE i E UTE EUER ER C:NMsersNLP>pip install pyecharts 
Collecting pyecharts 
Downloading pyecharts- 旧 .4.1.tar-9gz <C1Ø7kB> 

47 " D1kB 16kB/s eta 上 四 :四 时: 
G77 ı G1kB 19kB/s eta H: 
657 
TOX 
857 
957 | | | | | | 1 182kB 

| 100x E | | | | HERE 

B 23kB^s 

Requirement already satisfied: pillow in f:\anacondavenvs\ata—analuysis"“lib"\site 

-packages from pyecharts? 

Requirement already satisfied: jinja2 in f:5ħanaconda5enusMdata-analysisNlib5site 

-packages 《om pyecharts? 

zo llecting future (from pyecharts>? 

ollecting jJjupyter—-echarts-pypkg==60.1.0 <from pyecharts? 

Downloading jupyter-echarts-pypkg-0.1.ð.tar.gz <514kB> 

357 ı 184kB 7?.4kB/s eta 0:00:45 
377 1 194kB ?7.5kB/s eta 0:00:43 
397 1! 204kB 8.1kB/s eta 0:0H9:3 
417 215kB 9 .0kB/s eta 0:00: 
43z 225kB 7 2L 137 eta 目 : 日 日 : 
457 1 235kB ?7.9kB/s eta 上 日 :日 日 


i 71kB 18kB/s eta 
! 81kB 18kB/s 
i 92kB 17kB 





nec 


图 9.1 A pyechatts 


如 果 显 示 如 图 9.2 所 示 的 提示 ， 则 表示 安装 成 功 。 


NE EER: Anaconda Prompt (data-analysis) 


--. RN LER UR UR TR TR TR UR NR NEUE ER TR OR ER RR ERU UR RTT ER 


188» i 

B 9.9kB^s 
Collecting lm1== 上 日 .日 .2 《fkom pyecharts>? 

Downloading 1ml-0.0.2-py2 .py3-none-any.whl 
Requirement already satisfied: olefile in f:\anaconda5ħenysMdata-analysisNlibsit 
e—packages from pillow—>pyecharts)>) 
Requirement already satisfied: MarkupSafe>=0.23 in f:\anaconda\envs lata—~analvysi 
swNlib*site-packages from jinja2-»5pyecharts? 
Requirement already satisfied: pyecharts-jupyter-installer--B8.00.3 in f:'anaconda 
\enyvs Mdata-analysisàlib5site-packages <Cfrom jupyter-echarts-pypkg==8.1.Ø9->pyecha 
ts? 
Building wheels for collected packages: pyecharts, jupyter-echarts-pypky 

Running setup.py bdist_wheel for pyecharts ... done 

Stored in directory: CG:\Jsers\LP\MppData\Local‘\pip\Cache‘wheels\df MB\?6\f3f5d 
d418db91f8d5eag7bae559d4cc854hbccbabd5cf22adee39 

Running setup.py bdist_wheel for jupyter—echarts—pypkg ... done 

Stored in directory: GC:\Jsers\LP\MAppData\Local\pip\CGCache wheels\fa\d34\a3‘\cd45h 
a3466a?cdcf43862cHec838Adfbc5S5Ae2ci8e7ca?7c2d 

uccessfullu built pyecharts jupyter-echarts-pupkg 
Installing collected packages: future, lml, jupyter-echarts-pypkg. pyecharts 
uccessfully installed future-8.16.80 jupyter-echarts-puypkg-8.1.80 1m1-8.8.2 pyech 
arts-0.4.1 








CF: VAnaconda5enyusdata-analysis) GCG:WsersNLP> I 


图 9.2 ”安装 成 功 


9.1.2 BAE 


pyecharts 库 可 绘制 多 种 图 形 。 利 用 Scatter 方 法 可 绘制 散 点 图 ， 代 码 如 下 : 























import numpy as np 

import pandas as pd 

import pyecharts 

x — [10, 20, 30, 40, 50, 60] 

y= [10, 20, 30, 40, 50, 60] 

scatter = pyecharts.Scatter (" 散 点 图 示例 ") # 加 入 标题 
scatter.add('A', x, y) # 绘 制 散 点 图 
scatter 








pyecharts 绘 图 的 核心 代码 是 add 方 法 ， 该 方法 用 于 添加 图 表 的 数据 和 设置 各 种 配置 项 。 在 scatter 中 ，add 函 数 的 参数 如 下 ， 其 中 ，name 为 图 例 名 称 ， 后 面 依次 为 x 轴 和 y 轴 ，symbol_size 为 散 点 图 大 
小 ， 上 默认 为 10。 





add(name, x axis, y axis, 
extra data-None, 
symbol size-10, **kwargs) 





绘制 的 散 点 图 如 图 9.3 所 示 。 


利用 Visualmap 组 件 ， 可 以 通过 图 形 点 大 小 映射 数值 ， 效 果 如 图 9.4 所 示 。 代 码 如 下 : 


[10, 20, 30, 40, 50, 60] 

[10, 20, 30, 40, 50, 60] 

scatter = pyecharts.Scatter (" 散 点 图 示例 ") 

scatter.add('A', x, y, is visualmap-True, 

visual type-'size', visual range size-[10, 60]) 























Scatter 





K9.3 dC EE 





图 9.4 dk, E 


9.1.3 ”折线 图 


利用 Line 方 法 可 绘制 折线 图 ， 代 码 如 下 : 


years = [1950, 1960, 1970, 1980, 1990, 2000, 2010] 
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3] 








line = pyecharts .Line ("折线 图 示例 ") 
line.add("GDP", years, gdp, mark point-["average"]) # 标 记 平 均值 
line 








下 面 给 出 line.add 方 法 的 参数 。is_symbol_show 显 示 标 记 图 形 ; is smooth 显 示 平 滑 曲 线 ; is_stack 显 示 数 据 堆 于 ; is_step 设 置 阶梯 线 图 ; is_f 训 绘制 面积 图 ， 具 体 代码 如 下 : 





add(name, x axis, y axis, 
is symbol show-True, 
is smooth-False, 
is stack-False, 
is step-False, 

is fill-False, **kwargs) 











绘制 的 折线 图 如 图 9.5 所 示 。 





图 9.5 折线 图 


下 面 给 出 通过 设置 is_step 参 数 绘制 阶梯 图 的 代码 ， 最 终 的 效果 如 图 9.6 所 示 。 





years = [1950, 1960, 1970, 1980, 1990, 2000, 2010] 

gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3] 
line = pyecharts.Line ("阶梯 图 ") 

line.add("GDP", years, gdp, is step-True) 

line 























图 9.6 ”阶梯 图 
下 面 给 出 通过 设置 is_fill 参 数 绘制 面积 图 的 代码 。 其 中 ，area_color 为 填充 颜色 ，area_opacity 为 透明 度 ， 效 果 如 图 9.7 所 示 。 


years = [1950, 1960, 1970, 1980, 1990, 2000, 2010] 

gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3] 
line = pyecharts.Line ("面积 图 ") 
line.add("GDP", years, gdp, is fill-True, area color='#000',area opacity-0.3) 
line 























图 9.7 面积 图 


9.1.4. 柱状 图 


利用 Bar 方 法 可 以 绘制 柱状 图 ， 代 码 如 下 : 


data = [23, 85, 72, 43, 52] 
labels = MAn Bn C" Dra" E] 
bar = pyecharts.Bar ("柱状 图 ") 
bar.add("one", labels, data) 
bar 





下 面 给 出 bar.add 方 法 的 参数 。 其 中 ，is_stack 为 堆积 柱状 图 ; bar_category_gap 为 类 目 间 的 距离 ， 值 为 0 时 则 可 以 绘制 直方 图 。 





add(name, x axis, y axis, 
is stack-False, 
bar category gap-'20$', **kwargs) 


绘制 的 柱状 图 如 图 9.8 所 示 。 


使 用 多 个 add 方 法 可 以 绘制 并 列 柱状 图 ， 效 果 如 图 9.9 所 示 ， 代 码 如 下 : 











datal = [23, 85, 72, 43, 52] 
data2 = [14, 35, 62, 41, 19] 
labels -= ['A','B','C','D','"E'] 

















bar.add("one", labels, datal 
bar.add('two', labels, data2 
bar 





bar = pyecharts.Bar(" 并 列 柱状 图 ") 
) 
) 




















图 9.8 柱状 图 





图 9.9 ”并列 柱状 图 


通过 设置 is_stack 参 数 可 以 绘制 堆积 柱状 图 ， 效 果 如 图 9.10 所 示 。 代 码 如 下 : 








datal = [23, 85, 72, 43, 52] 
data2 = [14, 35, 62, 41, 19] 
labels. — PAT BI GC DAEN] 




















bar = pyecharts.Bar ("堆积 柱状 图 ") 
bar.add("one", labels, datal, is stack-True) 














bar.add('two', labels, data2, is stack-True) 
bar 


通过 设置 is convert 参 数 可 以 绘制 垂直 柱状 图 ， 效 果 如 图 9.11 所 示 。 代 码 如 下 : 





datal = [23, 85, 72, 43, 52] 

Tabels = [AT "B"; Fr np, Py] 

bar = pyecharts.Bar ("3E ELRETA RKI") 
bar.add("one", labels, datal, is convert-True) 
bar 























EB... BB 





图 9.10 ”堆积 柱状 图 





图 9.11 垂直 柱状 图 


通过 设置 mark_point 和 mark_line 参 数 可 以 标记 点 和 线 ， 效 果 如 图 9.12 所 示 。 代 码 如 下 : 








datal = [23, 85, 72, 43, 52] 
data2 = [14, 35, 62, 41, 19] 
labels = ['A','B','C','D', DB] 











bar = pyecharts .Bar(" 标 记 点 和 线 ") 
bar.add("one", labels, datal, mark poini 
bar.add('two', labels, data2, mark poini 
bar 





['average']) 
['max'], mark line-['min', 'max']) 




















Aa : 全 局 变量 matk_line 要 写 入 最 后 一 个 add 方 法 中 。 


EB... EB: 





图 9.12 ”标记 点 和 线 
令 bar_category_gap 参 数 为 0， 可 绘制 直方 图 ， 效 果 如 图 9.13 所 示 。 代 码 如 下 : 


data = [23, 85, 72, 43, 52, 67, 98, 76] 

















labels = ['A','B','C','D','E', "F", 'G', 'H'] 
bar = pyecharts.Bar ("直方 图 ") 

bar.add("", labels, data, bar category gap=0) 
bar 





图 9.13 ”直方 图 


92 ”其 他 图 表 


本 节 讲 解 如 何 利用 pyecharts 库 绘制 其 他 图 表 : 通过 设置 绘图 参数 ， 来 绘制 不 同类 别 的 饼 图 (如 圆 环 图 和 玫瑰 图 ) 和 箱 线 图 。 


饼 图 用 于 表现 不 同类 别 的 占 比 情况 。 利 用 Pie 方 法 可 绘制 饼 图 ， 代 码 如 下 : 


data = [45, 76, 35, 47, 56] 

labels = [' 电 脑 ', ' 手 机 ', Vk", ERI, ' 洗 衣 机 '] 
pie = pyecharts.Pie(' 饼 图 ') 

pie.add('', labels, data, is label show=True) 
pie 





下 面 给 出 pie.add 方 法 的 参数 。 其 中 ，radius 为 设置 饼 图 半径 ， 默 认为 [0,75]， 第 一 项 为 内 半径 ， 第 二 项 为 外 半径 ; center 为 设置 饼 图 中 心 坐 标 ， 默 认为 [50,50]， 第 一 项 为 横 坐 标 ， 第 二 项 为 纵 坐 标 ; 
rosetype 可 以 设置 南 丁 格 尔 图 (玫瑰 图 ) ， 有 两 种 表现 形式 ， 分 别 为 radius 和 area。 


add(name, attr, value, 
radius-None, 
center-None, 
rosetype-None, **kwargs) 





绘制 的 饼 图 如 图 9.14 所 示 。 


EB ==: E =n M E Mtt 8S3 xu 


电脑 : 17.38% 


KE: 18.1596 — 
手机 : 29.3496 


冰箱 : 13.51% 一 -一 





E934 ^H 


设置 radius 参 数 为 [40,75]， 这 样 就 有 了 内 半径 值 ， 就 可 以 绘制 圆 环 图 了 ， 效 果 如 图 9.15 所 示 。 代 码 如 下 : 


data = [45, 76, 35, 47, 56] 

labels = [' 电 脑 ', "FPL", ' 冰 箱 ', ' 彩 电 ', ' 洗 衣 机 '] 

pie = pyecharts.Pie(' 圆 环 图 ') 

pie.add('', labels, data, radius-[40,75], is label show-True) 
pie 








EB =: BB 手机 SB Bc Eir 


电脑 : 17.3896 
洗衣 机 : 21.62% 一 、 


K: 18.1596 一 一 


冰箱 : 13.51% 一 -一 





图 9.15 AHA 


设置 radius 参 数 为 [40,75]， 这 样 就 有 了 内 半径 值 ， 就 可 以 绘制 圆 环 图 了 ， 效 果 如 图 9.16 所 示 。 代 码 如 下 : 





data = [45, 76, 35, 47, 56] 

labels = [' 电 脑 ', ' 手 机 ', ' 冰 箱 ', ERR, ' 洗 衣 机 '] 

pie = pyecharts.Pie(' 圆 环 图 ') 

pie.add('', labels, data, radius-[40,75], is label show-True) 
pie 











EB =: B =n SES H: Bc BA 


电脑 : 17.38% 


彩电 : 18.1596 一 一 
手机 : 29.3496 


akte: 13.5196 





图 9.16” 圆 环 图 


通过 设置 center 参 数 可 以 绘制 多 个 饼 图 ， 这 样 就 可 以 比较 两 种 玫瑰 图 的 区 别 。 通 过 图 9.17 可 以 看 出 ， 通 过 radius 参 数 绘制 的 玫瑰 图 的 圆心 角 不 同 ， 以 此 来 显示 其 数据 的 百分比 ， 玫 瑰 图 的 半径 显示 数据 
的 数值 大 小 ;通过 area 参 数 绘制 的 玫瑰 图 的 圆心 角 相 同 ， 仅 通过 半径 大 小 来 显示 数据 的 区 别 。 实 现代 码 如 下 : 


data = [45, 76, 35, 47, 56] p 
labels = [' 电 脑 ',' 手 机 ', VRAB', ' 彩 电 ',' 洗 衣 机 '] 
pie = pyecharts.Pie(' 玫 瑰 图 ') 


pie.add('', labels, data, radius-[20,75], center-[25,50], 
rosetype-'radius') 

pie.add('', labels, data, radius-[20,75], center-[75,50], 
rosetype-'area', is label show-True) 























EB =: EB 手机 89 ss M es axe 


洗衣 机 : 21.6296 —. 


彩电 : 18.15% 


冰箱 : 13.5196 





图 9.17 KHE 


9.2.2 JRE 


箱 线 图 可 显示 一 组 数据 的 最 大 值 、 最 小 值 、 中 位 数 、 下 四 分 位 数 及 上 四 分 位 数 ， 可 以 体现 数据 的 分 布 规律 。 利 用 Boxplot 方 法 可 绘制 饼 图 ， 其 参数 见 下 文 。 其 中 ，x_axis 为 横 坐 标 列表 ; y axis738RE ll 
表 。 每 个 列表 为 [min,Q1,median(or Q2),Q3,max]， 该 列表 可 通过 内 置 的 prepare_data 方 法 转换 。 





add(name, x axis, y axis, **kwargs) 


这 里 以 Iris 数据 为 例 ， 首 先 读 入 数据 ， 如 图 9.18 所 示 。 


iris data = pd.read csv(open( H: \python 数 据 分 析 \ 类 I[ 扬 \iris-data. csv )) 
iris data.head() 


sepal length cm  sepal width cm  petal length cm  petal width cm class 
9.1 E 1.4 0.2 |ris-setosa 
4.9 ; 1.4 0.2 lrs-setosa 
4f 1.3 0.2 lrs-setosa 
4.6 i 0.2 Iris-setosa 


5.0 : ; 0.2 lris-setosa 





图 9.18 ” Iris 数据 


通过 以 下 代码 即 可 绘制 箱 线 图 ， 如 图 9.19 所 示 。 





list(iris data.columns[0:4]) 
[list(iris data.sepal length cm), 
list(iris data.sepal width cm), 
list(iris data.petal length cm), 

( 





























list(iris data.petal width cm)] # 构 造 y 
boxplot = pyecharts.Boxplot ("HRR") 
y data = boxplot.prepare data (y) # 数 据 转化 
boxplot.add('', x, y data) 
boxplot 








sepal length cm  sepal width cm petal length cm petal width cm 





图 9.19 HARR 





9.3” 绪 合 示 例 一 一 粮 事 百科 用 户 数 据 


本 节 将 利用 网 络 爬 取 的 数据 以 及 利用 pandas 数 据 分 析 方 法 ， 通 过 pyecharts 可 视 化 的 手段 来 分 析 粮 事 百 科 用 户 的 信息 。 


9.3.4. 数据 来 源 


本 节 示 例 数据 来 源 于 网 络 息 虫 ， 笔 者 胞 取 了 粮 事 百科 的 段子 信息 和 对 应 的 用 户 信息 
ATE: 该 数据 可 以 从 本 书 配套 资源 中 找到 。 


该 数据 有 两 个 CSV 文 件 ， 通 过 pandas 依 次 读 取 段 子 数 据 ， 如 图 9.20 所 示 。 


inport numpy as np 
inport pandas as pd 
inport pyecharts 


datal = pd.read csv(open(r' H:\python 数 据 分 析 \ 数 据 \giushi_info. csw , encoding-'utf-8' )) 
datal.headO 





id sex age laugh comment user url content 
E9.20 PAR ER IHAT AGE 
该 数据 包括 用 户 的 id、 性 别 (sex) 、 年 龄 (age) 、 好 笑 数 (laugh) 、 评 论 数 (comment) 、 用 户 的 URL 和 段子 内 容 (content) 。 


读 取 用 户 数据 ， 如 图 9.21 所 示 。 该 用 户 数据 包括 用 户 的 一 些 个 人 信息 : 粉丝 (fans) 、 关 注 (topic) 、 段 子 数 量 (qiushi) 、 评 论 量 (comment 1) 、 笑 脸 (favour) 、 粮 事 精 选 (handpick) 、 婚 
姻 状 况 (martial status) 、 星 座 (constellation) 、 职 业 (profession) 、 家 乡 (home) 和 用 户 URL。 


data2 = pd.read csv(open(r'H:WpythonZAdE^ HT E user info.csv',encoding-' utf-8:* )) 
data2. head() 


fans topic qiushi comment 1 favour handpick martial status constellation profession home qiushi age user url 


10 470 30 204280 0.0 married 双鱼 座 xeu gn 2876X: —— https./www.aiushibaike com/users/112899/ 


0.0 60.0 172.0 25162.0 0.0 married 处 女 座 y https -/^www.qiushibaike.com/users/36401850/ 
ui 


0.0 9.0 26.0 684.0 0.0 不 详 rm https-/^www.qiushibaike.com/users/15047842/ 


贺州 


7.0 1. 21.0 16166.0 0.0 single ; p^ https-/www.qiushibaike.com/users/372677 10/ 
/ 


16.0 ) 6596.0 : 不 详 > ^ https /www.qiushibaike.com/users/22688237/ 
P} 





图 9.21 用 户 数据 


9.3.2 定义 问题 


在 本 次 分 析 中 ， 将 围绕 段子 和 用 户 的 数据 提出 几 个 问题 : 段子 的 评论 量 、 段 子 的 点 赞 数 、 用 户 的 男女 分 布 、 用 户 的 星座 和 地 区 分 布 等 。 


9.3.0 ”数据 清洗 


首先 对 段子 数据 进行 清洗 。 通 过 info 函 数 可 以 看 出 ，age 是 object 对 象 ，user_url| 有 缺失 值 ， 在 对 段子 数据 进行 分 析 时 ， 没 有 使 用 到 用 户 的 URL， 这 里 进行 保留 ， 如 图 9.22 所 示 。 


通过 unique 函 数 可 以 看 出 ， 在 年 龄 中 有 不 详 的 数据 ， 如 图 9.23 所 示 。 


datal.infol) 


<class 'pandas.core.frame.DataFrame'? 
RangzeIndex: 325 entries, O to 324 
Data columns (total T columns): 


id J29 non-null object 
sex dab non-null object 


age Jag non-null object 
laugh 325 non-null int64 
comment 325 non-null int64d 
user url Jl0 non-null object 
content Jao non-null object 
dtypes: int64(2), object(5) 
memory usage: 17.9t KD 





图 9.22 ”数据 情况 


datal[’ age’ ]. unique () 


array ( [7 38", "1007, 7287, 737, T267, "iU TUNEES, toC tdo, foy — "go. 


3 21. 2 25, '9g', ad’ s 3 30°, 2 25 elt ^ui pom 2 19°, 3 101 ， "62, 
MA. Masc rug r UNEC CEN UL Te dor, A teet XE 
"AT, 724, '83, 739, 748, "03 , ' 48, ' 80], dtypecobject) 





图 9.23 ”查看 唯一 值 
这 里 的 处 理 方 法 为 : 首先 将 不 详 的 数据 蔡 换 为 0 数据 ， 然 后 将 age 字段 转换 为 int 数 据 类 型 ， 最 后 利用 平均 值 来 替换 0 值 ， 如 图 9.24 所 示 。 


对 用 户 数据 进行 处 理 ， 首 先 查 看 缺失 值 ， 前 几 个 用 户 字段 都 有 5 个 缺失 值 ， 如 图 9.25 所 示 。 


datal['aze'].replace 不 证 ,0, inplace-True) 
datal[ age'] = datall['age'].astype( int64') 


datal['aze'].replace(0,int(datal[datal[ aze']!-20][ age ]. mean Q) , inplace-True) 


datal['aze'].unique() 


array([ 38, 100, 28, 32, 26, 84, 39, 22, 
O8, 34, 30, 33, 31, 19, 101, 62, 
54, 23, 42, 41, 29, 35, 17, 24, 


datal.dtypes 


id object 
sex object 
age int64d 
laugh int64d 
comment int64 
user url object 
content object 
dtype: object 


40, 
12, 
83, 


图 9.24 age 字段 处 理 


els 
3T, 
45, 


99, 
20, 
93, 


"AN 
13, 
48, 


29, 
38, 
80], dtype-int64) 





data2.isnull(Ü.sum(] 


fans 

topic 

qiushi 
comment 1 
favour 
handpick 
martial status 
constellation 
profession 
home 

qiushi age 
user url 
dtype: int64 


图 9.25 ”查看 缺失 值 


可 以 直接 用 dropna 方 法 删除 缺失 值 ， 如 图 9.26 所 示 。 前 几 个 字段 为 浮 点 数 数据 类 型 ， 将 其 转化 为 整数 类 型 ， 如 图 9.27 所 示 。 


data2. dropna(inplace-True) 
data2. info() 


<class 'pandas. core.frame.DataFrame'? 
Int6dIndex: 219 entries, O to 220 
Data columns (total 12 columns): 


fans 219 non-null float64 
topic 219 non-null float64 
qiushi 219 non-null float64 
comment 1 219 non-null float6d 
favour 219 non-null float64d 
handpick 219 non-null float6d 
martial status 219 non-null object 
constellation 219 non-null object 
profession 219 non-null object 
home 219 non-null object 
qiushi age 219 non-null object 
user url 219 non-null object 


dtypes: float64(6), object(6) 
memory usage: 22.2* KD 


data2[ fans ] = data2[ fans’ ]. astype Č int6d ) 


data2[ topic] = data2[ topic]. astype ( int64") 
data2[' qiushi'] = data2[ qiushi'].astype (° int64') 


data2[ comment 1'] = data2[ comment 1'].astype( int6d ) 
data2[ favour ] = data2[ favour’ ].astype int6d ) 


data2[ handpick’ ] = data2[ handpick].astype( int64') 





图 9.27 转化 数据 类 型 


对 于 home 字 段 ， 为 了 数据 的 可 视 化 ， 这 里 通过 字符 串 处 理 新 加 一 列 ， 用 于 获取 省 份 的 数据 ， 效 果 如 图 9.28 所 示 。 代 码 如 下 : 


data2['province'] = data2['home'].str.split(': ').str[0] 
data2.head() 


constellation profession home  qiushi age user url province 


MEE mz yit 2876 天 https//www.qiushibaike.com/users/112899/ 国外 


处 女 座 ITE I 73 天 https//www.qiushibaike com/users/36401850/ 浙江 


杭州 


FER 1464 天 https/www.qiushibaike.com/users/15047842/ 


S 


p 11x https /www.qiushibaike com/users/372677 10/ 


IUE e 


过 1231 天 httpS-WwWww.qiushipaike com/users/226838287/ 





图 9.28 字符 串 处 理 1 
对 于 用 户 的 粮 事 年 龄 ， 删 除 “ 天 ” 字 后 ， 转 化 为 int 类 型 ， 效 果 如 图 9.29 所 示 。 代 人 码 如 下 : 


data2['gqiushi age'] = data2['qiushi age'] .str.strip(' 天 ') 
data2['qiushi age'] = data2['qiushi age'].astype('int64') 


onstellation profession home  qiushi age user url province 


NEE 手艺 汪 pedi 2876 https://www.qiushibaike com/users/112899/ 国外 


I p^ 73 https/www.qiushibaike com/users/36401850/ 


gas 1464 https-//www.qiushibaike com/users/15047842/ 


11 https:/^www.qiushibaike com/users/372677 10/ 


1231 https: /www.qiushibaike com/users/22688287/ 





图 9.29 ”字符 串 处 理 2 


9.3.4 ”数据 探索 


首先 对 段子 数据 进行 分 析 ， 分 析 好 笑 数 和 评论 多 的 段子 是 哪些 用 户 发 的 。 通 过 对 laugh 字 段 排序 ， 选 取 前 10 条 搞笑 的 数据 ， 如 图 9.30 所 示 。 


laugh sort = datal.sort values (by = 'laugh',ascending-False) [0:10] 
laugh sort 











( 狗 迷 ) 真 的 
ZR 
+E 


d 


SE 


+24 


E 


TE 


ZU EM 


不 知 不 觉 的 年 


2: 
d 


laugh comment 


19428 


12403 


通过 代码 绘制 好 笑 数 前 10 条 的 用 户 柱状 图 ， 如 图 9.31 所 示 。 





bar = pyecharts. 
attr = list(laugh sort 
vl = list(laugh sort['laugh']) 





Bar ( "搞笑 段子 

















[ idq']) 








j 户 排名 ') 


bar.adqd(' 好 筑 数 "attr,vl,is label show-True, 
mark point-['max','min'],mark line-['average'], 


bar 


* is xaxislabel al 





is xaxislabel al 


ign-True,xaxis interval-0, 





xaxis name size-] 





2,xaxis rotate-30) 








ign=True 为 x 轴 刻 度 与 x 标签 对 应 








# xaxis interval=0 设 置 每 个 x 标签 都 显示 





#xaxis 


#xaxis_rotate=30 设 置 x 轴 标签 旋转 





name size=12 设 置 x 标签 大 小 





12403 


.10026 .9816-.. 


user url 


https -//www.qiushibaike.com/users/1484911 4/ 


https -/www.qiushibaike com/users/22085985/ 


https /www giushibaike.com/users/87 37794/ 


https -//www.qiushibaike com/users/28437800/ 


https //www.qiushibaike.com/users/87 377 94/ 


https /www.qiushibaike com/users/30303337/ 


https-/^www.qiushibaike.com/users1320295/ 


https-/www.qiushibaike.com/users/11086904/ 


https -//www.qiushibaike com/users/23331917/7 


https -/www.qiushibaike com/users/36760891/ 


图 9.30 laugh FAE 


content 

ERIRENEE IL —— EFENA., 他 眼神 训 若 远方 ， 深 
VUES SEE LISE... 

裁 闭 尝 漳 等 红 A] ,旁边 妹子 在 打 电 话 ， 听 声音 是 真 帮 ，, 招 过 头 看 者 她 ,然后 她 
在 担 过 头 看 者 我 ，, BUB. 


下 午 同 事 给 我 一 包 减 肥 茶 ,我 唱 了 ， 别 说 ,效果 尺 快 义 好， 我 一 下 午 都 在 出所 
里 渡 过 ,客户 被 同事 一 个 人 ..… 


老公 这 些 天 加 班 ,特别 忙 ， 我 打 电 话 问 他 : “中 午 吃饭 了 吗 ? "他 说 木 有 , 刚才 
iram. S. 


/KESRSISSERSSERS NERO , SER, 可 对 方 不 是 好 的 荣 。。 


楼 下 新 开 一 家 成 人 用 品 , 我 家 那个 淘气 娃 ， 不知 怎 么 就 渔 进 去 了 , 回来 兴 冲 


冲 的 对 我 说 EE X. 
晚上 下 夜班 , 看 到 老婆 穿 佑 性 感 的 泛 衣 站 在 檬 道 迎接 我 , 我 心 星 一 暖 ， 上 前 抱 
HEFE EN , 


老婆 :老公 ,我 感觉 我 生病 了 ， 渤 身 没劲 ， 我 要 死 了 . 


同 吉 夫妻 例 吉 在 店 里 上 班 ， 刚 吃饭 的 时 收 , MAARRE -AERE 


话 ， 我 跟 另 一 个 同事 说 这 俩 .. 


自从 上 次 公司 聚餐 我 珊 老 妈 去 了 以 后 ， 一 女 同事 开始 阳 二 差 五 的 对 我 示 好 ,经 
第 关心 我 。 吴 然 自己 有 点 小 





其 中 用 户 名 为 “ 星 劫 ”的 段子 好 笑 数 最 多 ， 为 19428， 而 平均 好 笑 数 为 10364.5， 也 有 用 户 上 榜 两 条 。 





9334 “9293 


图 9.31 


按照 同样 的 方法 ， 对 comment 字 段 进 行 排序 ， 选 取 前 10 条 评论 量 最 多 的 数据 ， 结 果 如 图 9.32 所 示 。 代 码 如 下 : 


commen 
commen 














t sort 





t sort = datal.sort values (by = 'comment',ascending-False) [0:10] 





-> 10364.5 


] 





好 笑 数 前 10 位 用 户 排 名 





id 


名 字 帅 人 才 帅 


age 


27 4522 


10026 


laugh comment 


227 


user url 


https -//www.qiushibaike.com/users/237 45221/ 


https /^www.qiushibaike.com/users/87 37794/ 


https -//www.qiushibaike com/users/30032002/ 
https //www.qiushibaike com/users/23331917/ 


https -//www.qiushibaike com/users/36760891/ 


LZ 至 升 主管 ,请 同事 吃饭 庆祝 ， 吃 


content 


经 理 抢 着 关 单 ， 八 个 人 花 了 八 百 多 ， 
经 理 对 我 沉 ， 你 要 实在 不 


, HEALE ， 我 一 下 午 都 在 网 所 
里 渡 过 ， 客户 被 同事 一 个 人 


超市 便宜 很 多 ， 于 是 买 了 两 斤 ， 
老板 说 五 块 三 ， 算 五 块 了 . 


房东 家 刚 关 了 一 颗 长 浇 果 实 的 橘子 树 ， 每 次 路 过 都 起 偷偷 搞 两 个 ! 
上 学 的 时 候 ， 最 喜欢 和合 负 女 同 齐 ， 这 小 丫头 片子 心眼 少 ， 容 易 鞭 负 。 


[SI 2813 £ZZKSRRS NIE ， 问 了 桔子 的 价格 , EE 


软件 和 开 点 的 。 ' 吃饭 时 ， 迁 外卖 的 


= 7 Y L-- 


对 而 县 
四 个 人 还 都 是 本 单位 的 ! 天 


迎接 我 ， 我 心里 一 暖 LARS 
gren REEN, 


EFI NED ， 好 辛苦 什 么 
的 。 


我 家 那个 淘气 娃 ， 不 知 怎么 就 痪 进去 了 ， 固 来 兴 冲 
中 的 对 我 这 爸爸， 我 


我 做 


RUME ( 不 提名 字 以 得 免 战 争 ) 


小 奇 帮 我 请 试 程序 ， 
X5289082 MB, —RISLLETEREDEIRSS f , 竟然 还 


美衣 的 小 红军 https //www.qiushibaike com/users/104 13669/ 


非法 用 户 名 近 发 现 了 单位 两 个 


IkKx https -//www.qiushibaike com/users/29432428/ 


晚上 下 夜班 ， EHra HATENA 


SEE FJ https /^www.qiushibaike.com/users/11320295/ 


BIER .NB—TIsRBOREX f . 


NaN 


ETSGI 人 人 用品 
https-//www.qiushibaike com/users/30803337/ 楼 下 新 开 一 家 成 人 用 总 ， 





图 9.32 ”comment 字 上 段 排序 


过 以 下 代码 绘制 评论 量 前 10 位 的 用 户 柱状 图 ， 如 图 9.33 所 示 。 评 论 量 总 体 不 多 ， 平 均 为 150 条 左右 。 




















bar = pyecharts .Bar(' 评 论 段 子 用 户 排 名 ') 
attr = list(comment sort['id']) 
vl = list(comment sort['comment']) 
bar.add(' 评 论 数 ',attr,vl,is label show-True, 
mark | point= ['max','min'],mark line-['average'], 
is xaxislabel align-True,xaxis interval-0, 
xaxis name size-12,xaxis rotate-30) 


















































bar 
EB 评论 数 
250 
200 
150 
100 
50 
d 456 ^ aq F auk or 
d v QUOS uv We 
s ^ Xx 
图 9.33 评论 量 前 10 位 用 户 排 名 
对 用 户 数据 进行 分 析 时 ， 需 用 到 段子 数据 中 的 用 户 性 别 和 年 龄 等 信息 。 这 里 首先 将 段子 数据 中 的 user_info 缺 失 值 的 行 删 除 (这 些 用 户 为 匿名 用 户 ) ， 然 后 通过 merge 函 数 将 两 张 表 合并 (连接 键 为 
user_info) ， 最 后 删除 重复 数据 (前 文中 发 现 用 户 会 出 现 重 复 情 况 ) 。 代 码 如 下 : 
datal = datal.dropna() # 删 除 缺 失 值 
data = pd.merge (datal,data2,on-'user url') # 合 并 数据 
data = data.drop duplicates(['id']) 














# 删 除 重 复 值 


















































首先 计算 用 户 的 平均 年 龄 ， 如 图 9.34 所 示 为 35 岁 。 然 后 对 sex 字 段 进行 计数 ， 查 看 用 户 的 男女 分 布 比例 ， 如 图 9.35 所 示 。 从 图 中 可 以 看 出 男性 用 户 数量 较 多 ， 为 女性 用 户 的 3 倍 左右 。 


datal age ]. mean () 


35. 41290322580645 


图 9.34 JH Pf 





通过 下 面 的 代码 绘制 饼 图 ， 效 果 如 图 9.36 所 示 。 




















nt.index 
st(sex count) 
rts.Pie(' 用 户 男女 分 布 ') 
v, is label show-True) 








sex count = datal sex ].value countsí) 


sex count 


zE 115 
A 40 


Name: sex, dtype: int64 





£r: 25.8196 


ER. 74.1996 





图 9.36 “男女 用 户 分 布 图 


对 martial_status 字 段 计 数 ， 发 现 有 “不 详 ” 和 secret 两 个 字段 ， 这 里 全 部 替代 为 secret 字 段 再 进行 计数 ， 然 后 查看 用 户 的 婚姻 情况 ， 如 图 9.37 所 示 。 从 图 中 可 以 看 出 ， 信 息 保密 的 用 户 (secret) 较 
多 ,单身 用 户 (single) 和 已 婚 用 户 (married) 的 数量 接近 ， 热 恋 中 的 用 户 (inlove) 较 少 。 


marry count = data[ martial status'].value counts (| 
marry count 


secret 

不 证 

single 

married 

inlove T 

Mame: martial status, dtype: int64d 


data[ martial status'].replace( AMF ,' secret! , inplace-True) 


marry count = data[ martial status'].value counts (| 
marry count 


secret a4 
single JL 
married 2d 
inlove T 
Name: martial status, dtype: int64d 





图 9.37 用户 婚姻 情况 计数 


通过 下 面 的 代码 绘制 圆 环 图 ， 效 果 如 图 9.38 所 示 。 





attr = list(marry count.index) 
v — list(marry count) 
pie = pyecharts.Pie(' 用 户 婚姻 状况 ') 

pie.add('', attr, v, radius-[40,75], is label show=True) 
pie 























ED :ecret BN single BE married E inlove 
inlove: 4.5296 


married: 14.8496 


secret: 60.6496 





图 9.38 用户 婚 姻 状 况 圆 环 图 


然后 对 用 户 星座 进行 计数 ， 查 看 用 户 的 星座 分 布 情况 ， 如 图 9.39 所 示 。 由 图 可 知 ， 摩 羯 座 用 户 数量 最 多 ， 其 他 的 各 星座 用 户 数量 相差 不 大 。 


con count = data[ constellation ].value counts() 
con count 


19 





图 9.39 用 户 星座 计数 
接着 通过 下 面 的 代码 绘制 柱状 图 ， 效 果 如 图 9.40 所 示 。 


attr = list(con count.index) 
list(con count 





























co 
ar = pyecharts.Bar(' 用 户 星座 分 布 ') 
r.add(' 星 座 ',attr,vl,is label show-True, 
mark point=['max', 'min'],mark line-['average'], 
axislabel align-True,xaxis interval=0, 
name j ) 








s" E” 4p d $6 x e s M d se? e$? Jn T gx 





图 9.40 ”用户 星座 分 布 柱状 图 


然后 通过 对 province 字 段 的 计算 来 分 析 用 户 的 地 区 分 布 情况 。 由 于 province 中 有 空格 ， 首 先 去 除 空格 然后 再 进行 计算 ， 如 图 9.41 所 示 。 由 于 用 户 数据 不 多 ， 各 地 区 分 布 没 有 太 大 的 差异 性 。 


data[' province ] = data[ province'].str.strip 
data. headí) 


province count = datal’ province'].vwalue counts() 
province count 


KAN 21 
bs 16 
国外 15 
由 东 
FR 
不 证 
安徽 
河北 
A 
湖南 
MCT 
四 川 
湖北 


| 一 
o 


cm c1 m y -3 -3 -3 tO tO tO 





图 9.41 用 户 地 区 计数 


最 后 通过 pyecharts 的 Bar 方 法 绘制 地 区 分 布 柱状 图 ， 效 果 如 图 9.42 所 示 。 代 码 如 下 : 


attr = list(province count[0:10].index) 
vl = list(province count[0:10]) 
bar = pyecharts.Bar(' 用 户 地 区 分 布 ') 
bar.add(' 地 区 ',attr,vl,is label show=True, 
mark point-['max', 'min'],mark line-['average'], 
is xaxislabel align-True,xaxis interval-0, 
xaxis name size-12,xaxis rotate-30) 



































bar 








K9.42 用户 地 区 分 布 柱状 图 


第 10 草 ”时 间 序 列 


在 许多 行业 中 ， 时 间 序 列 数据 是 一 种 重要 的 结构 化 数据 类 型 。 本 章 主要 讲解 datetime 的 数据 类 型 及 与 字符 串 的 相互 转换 方法 ;时 间 序 列 的 构造 和 使 用 方法 ; 日 期 和 时 期 数据 的 使 用 方法 ; 时 间 序 列 的 频 
率 转换 与 重 采 样 ; 最 后 通过 一 个 综合 示例 ， 讲 解 时 间 序 列 数据 的 处 理 与 分 析 方 法 。 


下 面 给 出 本 章 涉及 的 知识 点 与 学 习 目 标 。 
datetime 库 : 学 会 构造 时 间 数 据 及 其 与 字符 串 的 相互 转换 。 
" 时 间 序 列 : 学 会 构造 时 间 序 列 和 使 用 方法 。 
日 期 与 时 期 : 学 会 日 期 与 时 期 的 使 用 方法 。 


` 频率 转换 与 重 采样 : 学 会 resample 咒 数 的 使 用 方法 。 


10.1 datetime 模 块 


本 节 将 讲解 Python 标准 库 中 datetime 库 的 使 用 方法 ， 以 及 datetime 库 的 数据 和 字符 串 数 据 的 相互 转换 方法 。 


10.1.1 datetimef4jii 


Python 的 标准 库 datetime 可 用 于 创建 时 间 数 据 类 型 。 如 表 10.1 所 示 为 qatetime 库 的 时 间 数 据 类 型 。 


表 10.1 datetime 库 的 时 间 数 据 类 型 


类 m 使 用 说 明 


date 日 期 GE. H. ED 

time 时 间 CP. 4. Rb. ER) 
datetime 日 期 和 时 间 

timedelta Wj^"datetimelf]2Z: CH. fb. Æ) 


其 中 ，date 类 数据 可 用 于 创建 日 期 类 数据 ， 通 过 年 、 月 、 日 来 进行 存储 ， 如 图 10.1 所 示 。 


time 类 数据 用 于 存储 时 间 数 据 ， 通 过 时 、 分 、 秒 、 毫 秒 进 行 存 储 ， 如 图 10.2 所 示 。 


import datetime 


date = datetime.date(2018, 3, 2 
date 


datetime.date(2018, 3, 2) 


date. year 


2018 


date. day 


2 





图 10.1 ” date 数据 类 型 


time = datetime. time (9, 10, 34) 
time 


datetime. time (9, 10, 34) 


tıme. hour, time.minute, tıme. second 


(9, 10, 34) 





图 10.2 time 数据 类 型 


datetime 类 数据 可 以 看 做 是 date 类 和 time 类 的 组 合 ， 通 过 now 方 法 可 以 查看 当前 的 时 间 ， 如 图 10.3 所 示 。 


now = datetime.datetime.nowí) 
now 


datetime.datetime(2018, 4, 13, 10, 12, 10, 843298) 





图 10.3 datetime Zt JE JE 78 


timedelta 类 数据 为 两 个 datetime 类 数据 的 差 ， 也 可 通过 给 datetime 类 对 象 加 或 减 去 timedelta 类 对 象 ， 以 此 获取 新 的 datetime 类 对 象 ， 如 图 10.4 所 示 。 


delta = now 一 datetime.datetime(2018, 3, 5, 9, 12) 
delta 


datetime. timedelta(39, 3610, 843298) 


now 


datetime.datetime(2018, 4, 13, 10, 12, 10, 843298) 


now + datetime. timedelta(10) 


datetime.datetime(2018, 4, 23, 10, 12, 10, 843298) 





图 10.4 ”timedelta 数 据 类 型 


10.1.2 数据 转换 


在 数据 分 析 中 ， 字 符 串 和 datetime 类 数据 需要 进行 转换 ， 通 过 str 方 法 可 以 直接 将 datetime 类 数据 转换 为 字符 串 数 据 ， 如 图 10.5 所 示 。 


from datetime import datetime 
stamp = datetime(2018, 5, 12) 
stamp 


datetime.datetime(2018, 5, 12, O, 0) 


str (stamp) 


* 2018-05-12 00:00:00" 





图 10.5 datetime 类 数据 转换 为 字符 串 格式 


如 果 需 要 将 datetime 类 数据 转换 为 特定 格式 的 字符 串 数 据 (格式 化 ) ， 需 要 使 用 strftime 方 法 ， 如 图 10.6 所 示 。 


stamp. strftime *XY/Wm/*Wd ) 


~ 2018/05/12" 


stamp. strftime( %W ) 


3 19° 





图 10.6 datetime Žž% JEt 4 29 p 89 5E AE BA 


如 表 10.2 所 示 为 部 分 格式 化 编码 。 


表 10.2 格式 定义 





k B 使 用 说 明 

%Y 4 位 数 的 年 

Yoy 2 位 数 的 年 

Yom 2 位 数 的 月 

%d 2 位 数 的 天 

%H 时 (24 小 时 制 》 

vo] 时 《〈12 小 时 制 ) 

%M 2 位 数 的 分 

%W 每 年 的 第 几 周 ， 星 期 一 为 每 周 第 一 天 


通过 datetime.strptime 方 法 可 将 字符 串 格式 转换 为 datetime 数 据 类 型 ， 如 图 10.7 所 示 。 


datetime.strptimelvalue, 'WXY-*Xm-*d ) 


datetime.datetime(2018, 4, 12, 0, 0) 





图 10.7 字符 串 转 换 为 datetime 类 


在 pandas 中 ， 可 通过 to_datetime 方 法 快速 将 一 列 字符 串 数 据 转换 为 时 间 数 据 。 以 第 6 章 的 中 综合 示例 为 例 ， 可 以 看 出 HireDate 字 段 的 数据 类 型 为 字符 串 ， 如 图 10.8 所 示 。 


inport pandas as pd 
salary = pd. read_csv (open [° H:Wpythonfdig4 4H HE Baltimore City Employee Salaries FY2016.csv')) 
salary.head() 


Name 

Aaron,Patricia G 
Aaron,Petra L 

Abbey, Emmanuel 

3  Abbott-Cole.Michelle 
4 Abdal-Rahim,Naim A 


type (salary HireDate' ] [0]) 


str 


Facilities/Office Services ll 
ASSISTANT STATE'S ATTORNEY 
CONTRACT SERV SPEC II 


EMT Firefighter Suppression 


JobTitle AgencyID 
A03031 
A29045 
A40001 
Operations Officer lll A90005 


A64120 


图 10.8 


OED-Employment Dev (031) 
States Attorneys Office (045) 
M-R Info Technology (001) 


Agency 
10/24/1979 12:00:00 AM 
09/25/2006 12:00:00 AM 
05/01/2013 12:00:00 AM 
TRANS-Traffic (005) 11/28/2014 12:00:00 AM 


Fire Department (120) 03/30/2011 12:00:00 AM 


字符 串 类 型 


通过 to _datetime 方 法 可 以 将 HireDate 字 段 进行 转换 ， 如 图 10.9 所 示 。 该 数据 为 Timestamp 类 型 (时 间 戳 ) 。 


salary[ HireDate'] = pd.to datetime(salary[ HireDate' ]) 


salary.head() 


Name 

Aaron,Patricia G 
Aaron,Petra L 
Abbey.Emmanuel 
Abbott-Cole,Michelle 
Abdal-Rahim,Naim A 


type(salary[ HireDate' ] [0]) 


pandas. libs. tslib. Timestamp 


10.2 时间 序列 基础 


Facilities/Office Services Il 
ASSISTANT STATE'S ATTORNEY 
CONTRACT SERV SPEC II 


EMT Firefighter Suppression 


JobTitle AgencyID 
A03031 
A29045 
A40001 
Operations Officer lll A90005 


A64120 


Agency 
OED-Employment Dev {031) 1979-10-24 
States Attorneys Office (045) 2006-09-25 
M-R Info Technology (001) 2013-05-01 
TRANS-Traffic (005) 2014-11-28 


Fire Department (120) 2011-03-30 


图 10.9 ”将 HireDate 字 段 转换 为 datetime 类 


时 间 序 列 是 以 时 间 戳 为 索引 的 series 或 DataFrame。 本 节 将 讲解 时 间 序 列 的 构造 方法 ， 以 及 时 间 序 列 的 索引 和 切片 。 


10.2.1 时 间 序 列 构造 


pandas 中 的 时 间 序 列 指 的 是 以 时 间 数 据 为 索引 的 Series 或 DataFrame。 如 图 10.10 所 示 为 创建 的 一 个 时 间 序 列 Series。 


HireDate AnnualSalary 


$56705.00 
$75500.00 
$60060.00 
$70000.00 
$64365.00 


HireDate  AnnualSalary 


$56705.00 
$75500.00 
$60060.00 
$70000.00 
$64365.00 


GrossPay 
$54135 44 
$72445 87 
$59602.58 
$59517 21 
$74770.82 





GrossPay 
$54135.44 
$72445.87 
$59602.58 
$59517 21 
$74770.82 





from datetime import datetime 
import numpy as np 
import pandas as pd 


date = [datetime(2018, 4, 1), datetime(2018, 4, 5), 
datetime(2018, 4, 7), datetime(2018, 4, 9), 
datetime(2018, 4, 10), datetime(2018, 4, 15)] 


s = pd. Series (np. arange (6), index-date) 
3 


2018-04-01 
2018-04-05 
2018-04-07 
2018-04-09 
2018-04-10 
2018-04-15 
dtype: int32 





图 10.10 ”时间 序列 Seties 


创建 的 这 个 时 间 序 列 Series 的 索引 为 Datetimelndex 对 象 ， 如 图 10.11 所 示 。 而 Datetimelndex 对 象 的 每 个 标量 值 是 pandas 的 Timestamp 对 象 ， 如 图 10.12 所 示 。 该 对 象 可 以 保存 频率 信息 ， 后 面 会 讲解 
其 用 途 。 


s. 1ndex 


DatetimelIndex([ 2018-04-01', '2018-04-05', '2018-04-0T', '2018-04-09', 
*2018-04-10', '2018-04-15 ], 
dtype-' datetime6d[ns]', freq-None) 





图 10.11  DatetimeIndex*j $& 


s. index [0] 


TimestampÜ 2018-04-01 00:00:00') 





图 10.12  TimestampT % 


跟 普 通 的 series 一样 ， 不 同 索引 的 时 间 序 列 的 算术 运算 会 按照 索引 对 齐 ， 如 图 10.13 所 示 。 


s[::2] 


2018-04-01 
2018-04-07 
2018-04-10 
dtype: int32 


s * sl[::2] 


2018-04-01 
2018-04-05 
2018-04-07 
2018-04-08 
2018-04-10 
2018-04-15 
dtype: float64 





图 10.13 ”算术 运算 


10.22 索引 与 切片 


时 间 序 列 的 索引 用 法 和 pandas 基 础 数据 类 型 的 用 法 是 一 样 的 ， 如 图 10.14 所 示 。 传 入 一 个 可 用 于 解释 的 日 期 字符 串 ， 同 样 也 可 以 完成 索引 工作 ， 这 是 一 种 较 方 便 的 用 法 ， 如 图 10.15 所 示 。 


S 


2018-04-01 
2018-04-05 
2018-04-07 
2018-04-09 
2018-04-10 
2018-04-15 
dtype: int32 


s[2] 
2 





图 10.14 “时间 序列 索引 1 


s 2018/4/1' ] 


Q 





图 10.15 “时 间 序 列 索引 2 


切片 的 使 用 方法 和 pandas 基 础 数据 的 用 法 是 一 样 的 ， 如 图 10.16 所 示 。 同 样 的 ， 传 入 日 期 字符 串 或 者 datetime 类 数据 也 可 以 完成 切片 。 由 于 大 部 分 时 间 序 列 数据 是 按时 间 先 后 顺序 排列 的 ， 如 果 索 引 值 
不 在 该 时 间 序 列 中 也 可 以 实现 切片 ， 如 图 10.17 所 示 。 


2018-04-01 
2018-04-05 
2018-04-07 
2018-04-09 
2018-04-10 
2018-04-15 
dtype: int32 


s[2:5] 


2018-04-07 
2018-04-09 
2018-04-10 
dtype: int32 





图 10.16 “时 间 序 列 切片 1 


s P 2018/4/5 :' 2018/4/11'] 


2018-04-05 
2018-04-07 
2018-04-09 
2018-04-10 
dtype: int32 


s [datetime (2018, 4, 7):] 


2018-04-07 
2018-04-08 
2018-04-10 
2018-04-15 
dtype: int32 


对 于 长 时 间 序 列 来 说 ， 可 以 通过 年 、 月 来 轻松 获取 时 间 序 列 的 切片 ， 如 图 10.18 和 图 10.19 所 示 。 


date2 = [datetime(2018, 4, 1), datetime(2018, 4, 5), 


datetime (2018, 
datetimel201858, 
datetime 
datetime!2018, 
datetimel2018, 


long s = pd.Seriesínp. 


long s 


2018-04-01 
2018-04-05 
2018-04-13 
2018-04-27 
2018-08-04 
2018-08-08 
2018-09-12 
2018-08-23 
2019-03-12 
2019-03-27 
2018-06-07 
2019-06-17 


dtype: int32 


O O0) -3 O0) c ( c5 F5 E o 


m Hm 
BO 


| 
í 


d, 13), datetime(2018, 4, 27), 
9, 4), datetime(2018, 9, 8), 

9, 12), datetime(2018, 9, 23), 
3, 12), datetime(2019, 3, 27), 
6, 7T), datetime(2019, 6, 17)] 


arange(12), index-date2) 


图 10.18 ”创建 时 间 序 列 Series 


long s[ 2019 ] 


2019-03-12 5 
2018-03-27 z 
2019-06-0T 10 
2019-06-17 11 
dtype: int32 


long s['2018-9'] 


2018-08-04 
2018-09-08 
2015-08-12 
2015-08-23 
dtvpe: int3Z 


OO cow e 


-— 


AEE: AE DasFramed 2| etn HER FE Ei —H, TRAE. 


对 于 具有 重复 索引 的 时 间 序 列 ， 可 通过 索引 的 is_unique 属 性 进行 检查 ， 如 图 10.20 所 示 。 


date3 = pd.DatetimeIndex([ 2018/4/14', '2018/4/14', 
' 2018/5/23' , ' 2018/5/23' , 
* 2018/6/13', ' 2018/6, 13' ]) 


dup s = pd.Seriesínp.arangeí6), index-date3) 
dup s 


2018-04-14 
2018-04-14 
2018-05-23 
2018-05-23 
2018-06-13 
2018-06-13 
dtvpe: int32 


dup s.index.is unique 


False 





图 10.20 重复 索引 检查 
对 重复 索引 的 时 间 序 列 进行 索引 时 ， 产 生 的 是 切片 ， 如 图 10.21 所 示 。 


这 样 可 通过 groupby 函 数 对 其 进行 聚合 ， 如 图 10.22 所 示 。 


dup s['20180523'] 


2015-05-23 à 
2018-05-23 J 
dtype: int3Z 





图 10.21 重复 索引 


dup s. groupby (level-0).mean() 


2018-04-14 0.5 
2018-05-23 2. 5 
2018-06-13 41. 5 
dtype: float64d 


dup s. groupby (level-0). sun() 


2018-04-14 1 
2018-05-23 5 
2015-06-13 g 
dtype: int32 





10.3 日 期 


本 节 将 讲解 如 何 生 成 指定 长 度 的 Datetimelndex， 时 间 序 列 中 的 基础 频率 及 如 何 移动 时 间 数 据 。 


10.3.1 “日 期 沁 围 


使 用 pd.date_range 函 数 可 以 创建 指定 长 度 的 Datetimelndex 索 引 ， 如 图 10.23 所 示 。 


index = pd.date range( 2018/4/l', '2018/5/30') 
index 


DatetimeIndex([  2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04', 
*2018-04-05', '2018-04-06', '2018-04-0T', '2018-04-08', 
*2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12', 
*2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16', 
*2018-04-17T', '2018-04-18', '2018-04-198', '2018-04-20', 
*2018-04-21', '2018-04-22', '2018-04-23', "2018-04-24 ', 


*2018-04-25', '2018-04-26', '2018-04-27T', '2018-04-28', 
*2018-04-29', '2018-04-30', '2018-05-01', '2018-05-02', 
*2018-05-03', '2018-05-04', '2018-05-05', "2018-05-06 ', 
*2018-05-0T', '2018-05-08', '2018-05-09', '2018-05-10', 
*2018-05-11', '2018-05-12', '2018-05-13', '2018-05-14', 
*2018-05-15', '2018-05-16', '2018-05-17T', '2018-05-18', 
"2018-05-19', '2018-05-20', '2018-05-21', '2018-05-22', 
"2018-05-25 .. "2018-06-24 , '"2018-DB-2B , 2018-05-36. 
"2018-05-27 ', '2018-05-28', '2018-05-29', '2018-05-30'], 
dtype-' datetime6d[ns]', freq-'D') 





图 10.23 日 期 范围 1 


如 图 10.23 所 示 ， 默 认 情 况 下 ， 产 生 的 Datetimelndex 索 引 的 间隔 为 天 ， 也 就 是 说 ， 时 间 频 率 是 天 。 通 过 freq 参 数 可 以 使 用 其 他 频率 ， 如 图 10.24 所 示 。 


index = pd.date range( 2018/4/1', '2018/12/31', freg M ) 
index 


DatetimeIndex(['2018-04-30', '2018-05-31', '2018-06-30', '2018-07-31', 
'2018-08-31', '2018-09-30', '2018-10-31', '2018-11-30', 
* 2018-12-31! ], 
dtype- datetime6d[ns] , freg= M ) 





图 10.24 日 期 范围 2 


在 pd.date_range 函 数 中 传 入 起 始 或 结束 日 期 ， 青 传 入 一 个 表示 一 段 时 间 的 数据 ， 就 可 以 创建 指定 长 度 的 Datetimelndex 索 引 ， 如 图 10.25 所 示 。 


pd.date range(start = '2018/4/1', periods-20) 


DatetimeIndex([  2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04', 
'2018-04-05', '2018-04-06', '2018-04-0T', '2018-04-08', 
'2018-04-09', '2018-04-10', '2018-04-11', '2018-04-1?2', 
*2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16', 
*2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20'], 
dtype-' datetime6d[ns]', freg-'D') 


pd. date range(end = '2018/6/1', periods-20) 


DatetimeIndex([' 2018-05-13', '2018-05-14', '2018-05-15', '2018-05-16', 
* 2018-05-17, '2018-05-18', '2018-05-19', '2018-05-20', 
*"2018-05-21', '2018-05-22', '2018-05-23', '2018-05-24', 
*2018-05-25', '2018-05-26', '2018-05-2T , '2018-05-28', 
*2018-05-29', '2018-05-30', '2018-05-31', '2018-06-01' ], 
dtype-' datetime6d[ns]', freq-' D ) 





图 10.25 日 期 范围 3 


默认 情况 下 ，pd.date_range 隙 数 会 保留 完整 的 时 间 信 息 ， 但 可 通过 normalize 参 数 使 其 规范 化 ， 如 图 10.26 所 示 。 


pd. date range(start = '2018/6/1 15:11:34', periods-10) 


DatetimeIndex([' 2018-06-01 15:11:34', '2018-06-02 15:11:34', 
"2018-06-03 15:11:34', '2018-06-04 15:11:34, 
* 2018-06-05 15:11:34', '2018-06-06 15:11:34', 
* 2018-06-07 15:11:34', '2018-06-08 15:11:34', 
* 2018-06-09 15:11:34', '2018-06-10 15:11:34'], 
dtype= datetime6d[ns]', freq=° D’ ) 


pd. date_range (start = '2018/6/1 15:11:34', periods-10, normalize-True) 


DatetimeIndex(['2018-06-01', '2018-06-02', '2018-06-03', '2018-06-04', 
*2018-06-05', '2018-06-06', '2018-06-0T', '2018-06-08', 
* 2018-06-09', ' 2018-06-10'], 
dtype= datetime6d[ns]', freq-D') 





图 10.26 日 期 范围 4 


10.3.2 ”频率 与 移动 


时 间 序 列 的 频率 由 基础 频率 和 日 期 偏 移 量 组 成 。 例 如 ， 通 过 4H 就 可 以 创建 以 4 个 小 时 为 频率 的 Datetimelndex 索 引 ， 如 图 10.27 所 示 。 


pd.date range(start = '2018/4/1', periods-10, freq-' 4H ) 


DatetimeIndex([' 2018-04-01 00:00:00', '2018-04-01 04:00:00", 
"2018-04-01 08:00:00', "2018-04-01 12:00:00", 
` 2018-04-01 16:00:00', '2018-04-01 20:00:00', 
* 2018-04-02 00:00:00', 7 2018-04-02 04:00:00', 
` 2018-04-02 08:00:00', '2018-04-02 12:00:00], 
dtype-' datetime6d[ns]', freg=’ 4H ) 





图 10.27 38 3&1 


更 为 复杂 的 频率 字符 串 ， 也 可 以 被 高 效 地 解析 为 相对 应 的 频率 ， 如 图 10.28 所 示 。 


pd.date range(start = '2018/4/1', periods-20, freq-' 2H20min38$' ) 


DatetimeIndex([ 2018-04-01 00:00:00', '2018-04-01 02:20:3 
* 2018-04-01 04:41:16', '2018-04-01 07:01: 
* 2018-04-01 09:22: * 2018-04-01 11:43: 
* 2018-04-01 14:03: * 2018-04-01 16:24: 


* 2018-04-01 18:45: * 2018-04-01 21:05: 
` 2018-04-01 23:28: * 2018-04-02 01:46: 
* 2018-04-02 04:0T:* * 2018-04-02 06:28: 
* 2018-04-02 08:48:52', '2018-04-02 11:09: 
* 2018-04-02 13:30: * 2018-04-02 15:50: 
` 2018-04-02 18:11:24', '2018-04-02 20:32: 
dtype-' datetime6d[ns]!, freq- 843853 ) 





图 10.28 ”频率 2 


时 间 序 列 的 常用 基础 频率 如 表 10.3 所 示 。 


10.8 ”时 间 序 列 的 常用 基础 频率 


别 名 使 用 说 明 
D 每 日 历 日 
B SEIFE 
H 每 小 时 
T 或 者 min 每 分 钟 
S 每 秒 
M 每 月 最 后 一 个 日 历 日 
BM 每 月 最 后 一 个 工作 日 
A-JAN、A-FEB… 每 年 指定 月 份 的 最 后 一 个 日 历 日 


移动 数据 就 是 沿 着 时 间 索 引 将 数据 向 前 移 或 向 后 移 。 通 过 shift 方 法 可 以 完成 移动 数据 的 操作 ， 如 图 10.29 所 示 。 


dated = pd.date range( 2018/4/1', periods-5) 
s = pd. Series (np. arange(5), index-date4) 
7 


2018-04-01 
2018-04-02 
2018-04-03 
2018-04-04 
2018-04-05 
Freq: D, dtype: int32 


4& a P H^ oO 


s. shiftí(2) 


2018-04-01 NaN 
2018-04-02 NaN 
2018-04-03 0. 0 
2018-04-04 L0 
2018-04-05 2.0 
Freq: D, dtype: float64d 


s. shift(-2) 


2018-04-01 2. 0 
2018-04-02 3. 0 
2018-04-03 4.0 


2018-04-04 NaN 
2018-04-05 NaN 
Freg: D, dtype: float64d 


图 10.29 ”移动 数据 1 


这 种 单纯 的 移动 不 会 修改 索引 ， 而 是 使 部 分 数据 被 丢弃 。 如 果 在 shift 方 法 中 传 入 频率 参数 ， 这 样 就 是 修改 索引 了 ， 如 图 10.30 所 示 。 


s. shiftí(2,freq- D') 


2018-04-03 
2018-04-04 
2018-04-05 
2018-04-06 
2018-04-07 d 

Freg: D, dtype: int32 


CO D HB O 


s.shift(2, freq- M ) 


2018-05-31 , 
2018-05-31 1 
2015-05-31 
2015-05-31 
2018-05-31 
dtvpe: intiz 


图 10.30 “移动 数据 2 


10.4 时 期 


时 期 表示 的 是 时 间 区 间 ， 如 数 日 、 数 月 和 数 年 等 。 本 节 将 讲解 时 期 的 构造 方法 、 时 期 数据 的 频率 转换 和 其 数据 转换 。 


10.4.1 ”时 期 基础 


Period 可 以 创建 时 期 数据 类 型 ， 传 入 字符 串 或 者 整数 、 频 率 即 可 ， 如 图 10.31 所 示 。 


图 10.31 中 的 Period 对 象 表示 从 2018 年 1 月 1 日 到 2018 年 12 月 31 日 之 间 的 整 段 时 间 。 该 Period 对 象 可 以 进行 加 法 和 减法 计算 ， 使 其 进行 时 间 的 偏 移 。 两 个 Period 对 象 如 果 有 相同 频率 ， 则 它们 的 差 为 它们 
之 间 的 单位 数量 ， 如 图 10.32 所 示 。 


p = pd.Period(2018, freg= A-DEC' ) 


P 


Period( 2018', 'A-DEC') 





图 10.31 ”时 期 数据 类 型 


Period( 2020', 'A-DEC') 


D-—9 


Period( 2013, 'A-DEC' ) 


pd.Period(2025, freq- A-DEC') — p 


T 





图 10.32 ”时 期 计算 


类 似 于 pd.date_range，pd.period range 函 数 可 以 创建 时 期 范围 ，Periodlndex 索 引 同 样 可 以 构造 Series 或 DataFrame， 如 图 10.33 所 示 。 


date5 = pd.period range( 2018/4/1', '2018/10/5', freq- W ) 
date5 


PeriodIndex([ 2018-04', '2018-05', '2018-06', '2018-0T', '2018-08', '2018-09', 
* 2018-10' ], 
dtype-'period[M] , freq-'W ) 


pd. Series np. arange (7), index-date5| 


2018-04 
2018-05 
2018-06 
2018-07 
2018-08 
2018-08 
2018-10 
Freq: M, dtype: int32 





图 10.33 ”时 期 范围 


10.4.2 频率 转换 


Period 和 Periodlndex 对 象 可 以 通过 asfreq 方 法 转换 频率 ， 如 图 10.34 所 示 为 将 年 度 时 期 转换 为 月 度 时 期 。 


当年 度 的 频率 不 是 位 于 12 月 时 ， 转 换 频 率 就 会 发 生变 化 ， 如 图 10.35 所 示 。 


p = pd.Period(2018, freqg= A-DEC') 
P 


Period( 2018', 'A-DEC') 


p.asfreq(U WM, how- start’ ) 


Period( 2018-01', 'W') 


p.asfreq(U W , how- end ) 





Period( 2018-12 ', °M ) 


图 10.34 ”频率 转换 1 


p = pd.Periodí(2018, freg= A-JUN ) 
p 


Period( 2018 ， A-JUN ) 


p. asfreq M , how= start’) 


Period 2017-07, `M ) 


p.asfreq( W how- end ) 





Period( 2018-06 , `M ) 


图 10.35 ”频率 转换 2 


Periodlndex 对 象 的 频率 转换 方式 也 一 样 ， 如 图 10.36 所 示 。 


date6 = pd.period range( 2014', '2018', freq-' A-DEC') 
date6 


PeriodIndex([ 2014', '2015', '2016', '2017', '2018'], dtype-'period[A-DEC]', freq-'A-DEC') 


ps = pd. Series (np. arange (5), index-date6) 
ps 


2014 

2015 

2018 

2017 

2018 4 

Freq: A-DEC, dtype: int32 


ps.asfreq( M , how- start) 


2014-01 
2015-01 
2016-01 
2017-01 
2018-01 
Freq: M, dtype: int32 





图 10.36 ”频率 转换 3 


10.4.3 ”时 期 数据 转换 


利用 to_period 方 法 可 以 将 由 时 间 戳 索引 的 时 间 序 列 数据 转换 为 以 时 期 为 索引 ， 如 图 10.37 所 示 。 


date? = pd.date range( 2018/4/1', periods-4, freg-'W ) 
s = pd. Seriesínp. arange(1), index-dateT) 
S 


2018-04-30 0 
2018-05-31 1 
2018-06-30 2 
2018-07-31 Jj 
Freq: M, dtype: int32 


ps = s. to periodi) 
ps 


2018-04 
2018-05 
2018-08 
2018-07 
Freq: M, dtype: int32 





图 10.37 to petiod Zr ;& 


当然 ， 也 可 以 指定 转换 的 频率 ， 如 图 10.38 所 示 。 通 过 to timestamp 方 法 可 以 进行 逆 操 作 ， 如 图 10.39 所 示 。 


ps = s. to period( A-DEC') 
ps 


2018 

2018 

2018 
2018 J 
Freq: A-DEC, dtype: int3Z 





ps = s. to period(i) 
ps 


2018-04 
2018-05 
2018-086 
2018-07 
Freq: M, dtype: int32 


Co [3 HB CÓ 


ps. to timestamp (how= start) 


2018-04-01 U 
2015-05-01 l 
2018-06-01 2 
2015-01-01 s 
Freq: MS, dtype: intiz 


图 10.39 ”进行 逆 操 作 


10.5 频率 转换 与 重 玉 样 


重 采样 是 时 间 序 列 频率 转换 的 处 理 过 程 。 高 频率 聚合 到 低频 率 称 为 降 采 样 ， 而 低频 率 转换 为 高 频率 为 升 采样 。 本 节 将 讲解 重 采 样 的 使 用 方法 。 


10.5.1 重 采 样 


pandas 中 的 resample 方 法 用 于 各 种 频率 的 转换 工作 。 如 图 10.40 所 示 为 将 间隔 为 “天 ”的 频率 转换 为 间隔 为 “月 度 ” 的 频率 ， 这 里 的 聚合 方法 为 平均 值 。 


date = pd.date range(start = '2018/4/1l', periods-100, freg= D ) 
s = pd. Series np. arange (100), index-date) 
s. head (10) 


2018-04-01 
2018-04-02 
2018-04-03 
2018-04-04 
2018-04-05 
2018-04-06 
2018-04-07 
2018-04-08 
2018-04-08 
2018-04-10 ! 
Freq: D, dtype: int32 


s. resample [ M ).mean() 


2018-04-30 14. 5 
2018-05-31 45.0 
2018-06-30 15. 5 
2018-07-31 95.0 
Freg: M, dtype: float64d 





图 10.40 天 频率 转换 为 月 度 频 率 
如 表 10.4 所 示 为 resample 方 法 的 参数 及 说 明 ， 有 具体 使 用 方法 后 面 会 详细 解说 。 


表 10.4 tesample 方 法 的 参数 及 说 明 


2 ZA 使 用 说 明 
freq 转换 频率 
axies=0 重 采 样 的 轴 
closed-'right' EREEREER, WEB RI B om xe 21 S 
label-'right' TEBEAREH, fep i EA BH: 
loffset-None V ELSE IR] f E E 
kind-None RERE — SACS TRI PU II] 8 | 2783 
convention-None 升 采 样 所 采用 的 约定 〈start 或 end) 。 默 认为 end 


10.5.2 [AERE 


在 降 采样 中 ， 重 点 需要 考虑 的 是 closed 和 label 参 数 ， 这 两 个 参数 分 别 表示 哪 边区 间 是 闭合 的 ， 哪 边 用 于 标记 。 如 图 10.41 所 示 为 将 两 个 参数 值 都 设置 为 right。 


date = pd.date range(start = '2018/4/1', periods-12, freq-' D’ ) 
s = pd. Series (np. arange (12), index-date) 
S 


2018-04-01 
2018-04-02 
2018-04-03 
2018-04-04 
2018-04-05 
2018-04-06 
2018-04-07 
2018-04-08 
2018-04-09 
2018-04-10 
2018-04-11 
2018-04-12 11 

Freq: D, dtype: int32 


O O9) -3 O) c ( co r2. [A OO 


m 
o 


s.resample( 5D', closed- right, label-'right ).sum() 


2018-04-01 Q 
2018-04-06 15 
2018-04-11 40 
2018-04-16 11 
Freq: 5D, dtype: int32 


10.41 KAKI 


如 图 10.42 所 示 为 将 closed 和 label 参 数值 均 设 为 left。 其 处 理 的 过 程 如 图 10.43 所 示 。 


s.resamplel 5D', closed- left, label- left ).sumí) 


2018-04-01 10 
2018-04-06 35 
2018-04-11 21 
Freq: 5D, dtype: int32 





图 10.42” 降 采样 2 


closed- left" 


closed-'right' 


labelz'left" labelz'right" 





图 10.43 ”参数 示例 


通过 设置 loffset 日 期 偏 移 量 ， 也 可 以 看 出 其 时 间 戳 所 属 的 区 间 ， 如 图 10.44 所 示 。 


s.resample( 5D', closed- right’, label= right , loffset-'-1D').sum() 


2018-03-31 Ó 


2018-04-05 15 


2018-04-10 4O 
2018-04-15 11 
Freq: 5D, dtype: int32 





图 10.44 设置 loffset 偏 移 量 


10.5.3 HAIT 


在 升 采 样 中 用 到 的 就 不 再 是 聚合 ， 而 是 需要 对 缺失 值 进行 填充 ， 其 填充 方法 与 前 面 介 绍 的 fllna 一 样 ， 如 图 10.45 所 示 。 也 可 以 设置 填充 的 个 数 ， 如 图 10.46 所 示 。 


date = [datetime(2018,4, 3), datetime(2018, 4, 13)j] 
s = pd. Ser1ies([2, 5], index-date) 
s 


2018-04-03 
2018-04-13 
dtype: int64d 


s.resample( D').ffill() 


2018-04-03 
2018-04-04 
2018-04-05 
2018-04-06 
2018-04-07 
2018-04-08 
2018-04-09 
2018-04-10 
2018-04-11 
2018-04-12 
2018-04-13 
Freq: D, dtype: int64d 


2 
2 
2 
2 
2 
2 
2 
2 
2 
2 
5 





图 10.45“ 升 采 样 1 


s.resample( D').ffill(2) 


2018-04-03 2.0 
2018-04-04 AD 
2018-04-05 2. Q0 
2018-04-06 NaN 
2018-04-07 NaN 
2018-04-08 NaN 
2018-04-08 NaN 
2018-04-10 NaN 
2018-04-11 NaN 
2018-04-12 NaN 
2018-04-13 5.0 
Freq: D, dtype: float64d 





10.6 ”综合 示例 一 一 目 行车 租赁 数据 


本 节 以 Kaggle 官 网 中 的 华盛顿 自行 车 租赁 数据 为 例 ， 利 用 时 间 序 列 方法 ， 通 过 pandas 可 视 化 的 手段 ， 分 析 自 行车 租赁 随时 间 及 天 气 变化 的 分 布 情况 。 


10.6.1 数据 来 源 


该 案例 使 用 的 数据 集 可 在 Kaggle 网 站 (https://www.kaggle.com/c/bike-sharing-demand/data) 中 下 载 ， 这 里 下 载 训练 集 ， 如 图 10.47 所 示 。 


Q Competitions Datasets Kernels Discussion Learn +»» A EI 









Bike Sharing Demand 
( ( ) Forecast use of a city bikeshare system 
Overview — Data Kernels Discussion Leaderboard Rules Late Submission 





w You have accepted the rules for this competition. 


Competition Data 


= sampleSubmission.csv tralin.CSV 63316 KE 


zz test.Csv 


38 train.csv 


kaggle competitions download -c bike-sharing-demand m" ? 





图 10.47 ”数据 下 载 


如 图 10.48 所 示 ， 通 过 pandas 读 取 下 载 好 的 CSV 文 件 ， 即 可 加 载 该 数据 集 。 该 数据 为 Kaggle 官 网 上 公开 的 华盛顿 自行 车 共享 计划 中 的 自行 车 租赁 数据 。 数 据 字 段 介 绍 信息 可 通过 Kaggle 官 网 进行 查看 ， 
如 图 10.49 所 示 。 在 自行 车 租赁 数据 集中 : datetime 为 租赁 时 间 ; season 为 季节 ，1 为 春季 、2 为 夏季 ， 依 此 类 推 ; holiday 表 示 是 否 为 假期 ，0 为 非 假期 ，1 为 假期 workingday 与 holiday 值 正好 相反 ，0 为 
非 工 作 日 ，1 为 工作 日 ; weather 为 天 气 情况 ， 数 字 越 大 ， 天 气 越 差 | temp 和 atemp 为 气温 ; humidity 为 湿度 ; windspeed 为 风速 ; casual 为 普通 用 户 ; registered 为 注册 用 户 ; count 为 租赁 自行 车 数 


Eu 
ER. 


inport numpy as np 

inport pandas as pd 

import matplotlib.pyplot as plt 
Mmatplotlib inline 


bike = pd. read_csv (open (r° H:XpythonZHH ^) 15 HE \ bike. csv )) 
bike. head() 


datetime season holiday workingday weather temp atemp humidity windspeed casual registered count 


2011-01-01 00:00:00 1 0 0 1 984 14.395 81 0.0 3 13 16 
2011-01-01 01:00:00 1 


0 1 3902 13.635 80 0.0 32 40 
2011-01-01 02:00:00 0 

0 

0 


0 

0 9.02 13.635 80 0.0 27 32 
2011-01-01 03:00:00 0 984 14.395 75 0.0 10 13 
0 


2011-01-01 04:00:00 984 14395 75 0.0 1 1 





图 10.48 ”自行 车 租赁 数据 


Data Fields 


datetime - hourly date + timestamp 

season - 1- spring, 2 = summer, 3 = fall, 4 = winter 

holiday - whether the day is considered a holiday 

workingday - whether the day is neither a weekend nor holiday 
weather - 1: Clear, Few clouds, Partly cloudy, Partly cloudy 

2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist 
3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds 
4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog 
temp - temperature in Celsius 

atemp - "feels like" temperature in Celsius 

humidity - relative humidity 

windspeed - wind speed 

casual - number of non-registered user rentals initiated 
registered - number of registered user rentals initiated 

count - number of total rentals 





图 10.49 ”数据 字段 信息 


10.6.2 ”定义 问题 


本 次 分 析 围 绕 时 间 提 出 问题 : 时 间 段 与 自行 车 租赁 的 关系 情况 。 


10.6.3 Zip 


首先 查看 各 字段 是 否 有 缺失 值 ， 如 图 10.50 所 示 。 可 以 看 出 ， 各 字段 没有 缺失 值 。 


然后 查看 各 字段 数据 类 型 ， 发 现 datetime 字 段 不 是 时 间 数 据 类 型 ， 如 图 10.51 所 示 。 


bike. isnullíi).sumí) 


datetime 
season 
holiday 
workingday 
weather 
temp 

atemp 
humidity 
windspeed 
casual 
registered 
count 
dtype: int64d 


图 10.50 查看 缺失 值 


bike. dtypes 


datetime object 
season int64 
holiday int64 
workingday int64 
weather int64d 
temp float64d 
atemp float64d 
humidity int64d 
windspeed float64 
casual int64d 
registered int64d 
count int64 


dtype: object 


此 时 需 利用 pd.to_datetime 函 数 将 其 转换 为 datetime 类 数据 ， 如 图 10.52 所 示 。 


bikel[ datetime ] = pd. to datetime(bikel datetime ]) 
bike. dtypes 


datetime datetime64 [ns] 
season int64 
holiday int64 
workingday int64 
weather int64 
temp float64d 
atemp float64d 
humidity int64 
windspeed float64d 
casual intg 
registered int64 
count int64 
dtype: object 





图 10.52 ”转换 为 datetime 类 数据 


最 后 将 datetime 字 段 设 置 为 DataFrame 的 索引 ， 这 样 就 成 为 了 时 间 序 列 数据 ， 如 图 10.53 所 示 。 


bike = bike.set index( datetime') 
bike.head() 


season holiday workingday weather atemp humidity windspeed casual registered count 
datetime 
2011-01-01 00:00:00 14.395 
2011-01-01 01:00:00 13.635 


2011-01-01 02:00:00 13.635 


2011-01-01 03:00:00 14.395 
2011-01-01 04:00:00 14.395 





图 10.53 设置 索引 


10.6.4 ”数据 探索 


首先 利用 groupby 方 法 也 可 以 进行 降 采 样 ， 这 里 降 采 样 到 年 份 数据 ， 如 图 10.54 所 示 。 可 以 看 出 ，2012 年 的 租赁 数 要 高 于 2011 年 。 


y bike = bike.groupby(lambda x: x.year).mean(í) 
y bikel count’ ] 


2011 144. 223349 
2012 238. 560944 
Name: count, dtype: float6d 





图 10.54 年份 租赁 数 


然后 通过 下 面 的 代码 绘制 柱状 图 ， 如 图 10.55 所 示 。 








2011 2012 


图 10.55 “自行 车 年 份 租赁 数 分 布 


接着 再 利用 resample 方 法 ， 将 数据 重 采样 到 月 份 ， 类 型 为 时 期 类 型 ， 如 图 10.56 所 示 。 


m bike = bike.resample( W , kind-'period' ).mean() 
m bike.head() 


season holiday — workingday weather temp atemp humidity  windspeed casual registered — count 


datetime 
2011-01 .0 0.055684 0.612529 1.440835 8.633782 10.767981 56.308585 13.749830 4.658933 49986079 54.645012 
2011-02 .0 0.000000 0.733184 31.378924 11.331076 13.999922 53.580717 15.509298  À 8.466368 605174888 7306041256 
2011-03 .0 0.000000 0.735426 1.466368 14.063184 16.895594 55923767 16.033866 17.735426 69.114350 36.849776 
2011-04 .0 0.052747 0.630769 1.619780 17.776879 21.239835 66285714 15.844234 26.876923 84149451 111.026374 
2011-05 .0 0.000000 0.736842 1.528509 21.528596 25455143 71.421053 12.355358 34791667 140.017544 174.809211 





图 10.56” 重 采样 


然后 利用 plot 方 法 绘制 时 间 序 列 图 ， 如 图 10.57 所 示 。 由 图 可 知 ，2011 年 和 2012 的 趋势 大 致 相同 ， 前 几 月 逐渐 增加 ， 到 5、6 月 份 到 达 峰 值 ， 再 到 9 月 份 后 逐渐 减少 。 








fig, axes = plt.subplots (2, 
m bike['2011']['count'].p 
m bike['2012']['count'].p 


1) # 两 行 一 列 
lot (ax-axes [0] , sharex-True) # 贡 献 x 轴 
lot (ax=axes [1]) 
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图 10.57 ”自行 车 月 份 租赁 数 分 布 


为 了 分 析 每 天 和 每 小 时 的 租赁 数 分 布 情况 ， 对 日 (day) 和 时 (hour) 的 数据 进行 单独 存储 ， 如 图 10.58 所 示 。 


bike[' day ] = bike. index. day 
bike[ hour’ ] = bike. index. hour 
bike. head) 


season holiday workingday weather atemp humidity windspeed casual registered count day hour 


datetime 

2011-01-01 00:00:00 
2011-01-01 01:00:00 
2011-01-01 02:00:00 
2011-01-01 03:00:00 
2011-01-01 04:00:00 





图 10.58 ”day 和 hout 字 段 
然后 对 day 字 段 进行 分 组 统计 ， 如 图 10.59 所 示 。 
OEE: 训练 数据 只 有 前 19 天 。 


通过 下 面 的 代码 绘制 折线 图 ， 如 图 10.60 所 示 。 





d bike.plot() 


d bike = bike.groupby( day )[ count? ].mean() 
d bike 


day 

180. 3339813 
183. 910995 
194. 696335 
195. 705575 
189. 765217 
189. 860140 
183. 773519 
179. 041812 
187.88'7391 
10 195. 153566 
11 195. 6T95TT 
12 190. 675393 
13 194. 160279 
14d 195. 829268 
15 201. 527875 
16 191. 353659 
1T 205. 660510 
18 192. 605684 
19 192. 311847 
Mame: count, dtype: float64d 


( c) -3 C) cn £ co ro H 


图 10.59 ”自行 车 每 日 租赁 数 


8 10 12 14 16 
day 


图 10.60 ”自行 车 每 日 租赁 数 分 布 





同样 ， 再 对 hour 字 段 进 行 处 理 ， 如 图 10.61 所 示 。 图 中 有 明显 的 两 个 峰值 ， 都 是 上 、 下 班 时 间 段 ， 并 且 晚 上 的 峰值 更 高 。 





h bike = bike.groupby ('hour')['count'].mean() 
h bike.plot() 








图 10.61 自行 车 每 小 时 租赁 数 分 布 


最 后 来 分 析 下 天 气 对 自行 车 租赁 数据 的 影响 ， 如 图 10.62 所 示 。 可 以 看 出 ， 天 和 气 越 差 ， 自 行车 租赁 数 越 少 ， 但 在 极端 天 气 下 却 略 有 上 升 。 


weather bike = bike. zroupby( weather )[ count ].mean() 
weather bike 


weather 

J 209. 2386191 

2 178. 955540 

d 118. 846333 

d 164. 000000 

Mame: count, dtype: float6d 


weather bike.plotí(kind- bar ) 


£matplotlib. axes. subplots. ÀxesSubplot at OxllOfcbcO? 


200 
175 
150 
175 
100 
75 
50 
23 
0 





weather 


图 10.62 天 气 情况 与 自行 车 租赁 数 分 布 


第 11 章 ”综合 案例 一 一 网 站 日 志 分 析 


网 站 的 日 志 数 据 记 录 了 所 有 Web 对 服务 器 的 访问 活动 。 本 章 主要 讲解 如 何 通过 Python 第 三 方 库 解 析 网 站 日 志 ; 如 何 利 用 pandas 对 网 站 日 志 数 据 进行 预 处 理 ， 并 结合 前 面 章节 中 的 数据 分 析 和 数据 可 视 


化 技术 ， 对 网 站 日 志 数 据 进 行 分 析 。 
下 面 给 出 本 章 涉及 的 知识 点 与 学 习 目 标 。 
. 网 站 上 日志 解析 : 学 会 apache-log-parset 的 安装 和 使 用 。 
. 数据 清洗 : 学 会 网 站 日 志 数据 的 清洗 。 


` 数据 分 析 : 巩固 前 面 章节 中 介绍 的 数据 分 析 和 可 视 化 技术 。 


11.4. 数据 来 源 


本 节 将 讲解 如 何 利用 Python 第 三 方 库 apache-log-parser 解 析 网 站 日 志 ， 并 利用 pandas 对 数据 进行 预 处 理 。 


11.1.1 ”网 站 日 志 解 析 


本 章 使 用 的 Apache log 数 据 如 图 11.1 所 示 。 


| apache access log - 记事 本 
DUH RE ”格式 ID) Ev) 帮助 (H) 
WWW. . oceanographers. ru 109. 165. 31. 156 - - [16/Mar/2013:08:00:25 +0400] "GET Ha 
265 "Mozilla/5.0 (Windows NT 6.1; rv: 19. . 0) Gecko 20100101 Firefox/19. 0” Ow 
] “GET /favicon. ico HITP/1.0 200 1878 "Mozilla/5.0 (Windows NT 6.1; rv: 
00 30716 "Mozilla/5.0 (compatible: Mail. RU Bot/2. 0: *http: //go. mail. ru/L 
InfoPath. 1; .NET CLR 1.1. 4322; .NET CLR 2.0. 50727; .NET CLR 3.0. 4506. 2152; 
OXB1*DOXBB*D1«SCK1r-56^ "Mozilla/ 5.0 (Linux; Android 4.0.3; HIC Desire C Bui 
um/viewtopic.php?p-5510" "Mozilla/5.0 (Linux; Android 4.O. 3- HIC Desire C Bu 
ceanographers. ru/forum/viewtopic. php?p-5510" "Mozilla/5.0 (Linux: Android 4. 
ographers. ru/forum/ viewtopic. php?p-5510^ "Mozilla/5. 0 (Linux; Android 4.0.3; 
00 201 "http://www. oceanographers. ru/forum/ viewtopic. php?p-5510^ Mozilla/3. 
ings&sid- -67af5eTfc3c2bb53165975afa538fec8 HTTP/1. 0" 200 43 "http:/ /www. ocear 
0400] "GET /forum/styles/ prosilver/imageset/ icon contact tog. gif HTTP/ 1.0” 
[16/ Mar/2013: 08:04:24 +0400] "GET /forum/ styles/prosilver/theme/ images/icon. 
aphers.ru 5. 79.199.116 - - [16/Mar/2013:08:04:24 +0400] "GET , /forum/styles/r 
ww. oceanographers.ru 5. 79.199.116 - - [16/Mar/2013:08:04:25 +0400] GET /fo 
osed. png HTTP/1.0" 404 1115 "-" "Mozilla/5.0 , Linux; Android 4.0.3; HTC Desi 
n-com content&task-view HTTP/1.0" 200 25908 "Mozilla/5.0 (compatible: Me 
:40 +0400] "GET , /index. php?option-com content&task-section&id-30&Itemid- 265 
115. 187 - - [16/Mar/ 2013:08:12:41 +0400] "GET /forum/viewtopic. php?f-7&t-80 
0 (compatible; MSIE 7.0; Windows NT 5.2)” Owww. oceanographers.ru 38. 100. 21. 6 
. php?sid-9db6elldffec4cc89f699844602221ec HTTP/1.0" 200 13385 "-" "Mozilla/4 
"GET /index. php?option-com content&task-view&id-1049&Itemid-167 HTTP/1.0" 2C 
42807 "http://medma jor. ru" "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/ 
aphers.ru/" "Opera/9.80 (Windows NT 5.1; MRA 6.0 (build 5998) ) Presto/?2. 12. 2 
NT 5.1; MRA 6.0 (build 5998) ) Presto/2. 12. 388 Version/12.11" Owww.oceanograr 
8)) Presto/ 2. 12. 388 Version/12.11' Owww.oceanographers.ru 220.160.150.13 - - 
s NT 5.1; MRA 6.0 (build 5998)) Presto/2.12.388 Version/12.11" Owww. oceanogr 
forum/ucp. php?mode-register" "Opera/9.80 (Windows NT 5.1; MRA 6.0 (build 59€ 


«[. mw. ] t 





图 11.1 Apache log 数 据 
QIE: 该 数据 集 可 以 从 本 书 的 配套 资源 中 下 载 。 


网 站 日 志 数 据 是 有 对 应 格式 的 ， 这 里 需要 通过 apache-log-parser 库 对 该 数据 进行 解析 ， 使 其 变 为 规范 的 数据 结构 。 如 图 11.2 所 示 ， 首 先 通 过 PIP 安 装 apache-log-parser 解 析 库 。 


NE 管 理 员 : Anaconda Prompt (data-analysis) Eus X 


CF: WVAnaconda5enyusMdata-analysis? C:Wsers\NLP>pip install apache-log-parser 


Collecting apache-log-parser 
Downloading apache-—log-parser-1.7.0.tar.gz 
Collecting user-agents <from apache-log-parser? 
Down loading user-agents-1.1.0.tar.gz 
equirement already satisfied: six in f:\anaconda\envs ata—~analvyvsis\l1ib\site—pa 
kages from apache-log-parser? 
Collecting ua-parser?=9.4.1 Cfrom user-agents—>apache-—log-parser? 
Downloading ua_parser-9.8.8-py2 .py3-none-any.whl 
Building wheels for collected packages: apache-log-parser, user-agents 
Running setup.py bdist_wheel for apache-log-parser ... done 
Stored in directory: GC:\Jsers\LP\MppData\Local‘\pip\Cache whee ls 8888 Ve‘\flect 
AI 
Running setup.py bdist_ wheel for user-agents ... done 
Stored in directory: GC:\Jsers\LP\MAppData\Local‘\pip\Cache wheels\"4c\ 36d8"\6h28d 
f b?33d4397e28dcf7b6d426b85808a22eed8c4107e6c2 
uccessfully built apache-log-parser user-agents 
Installing collected packages: ua-parser, user-agents, apache-log-parser 
uccessfully installed apache-log-parser-1.7.0 ua-parser-8.8.8 user-agents-1.1.8 


CF:\Anaconda\envs lata—~analysis> C:WsersNLP> 





图 11.2 ”安装 解析 库 


apache-log-parser 解 析 库 的 使 用 方法 很 简单 ， 首 先 需 要 了 解 该 日 志 的 格式 ， 以 此 定义 网 站 日 志 的 数据 格式 ， 然 后 通过 make_parse 传 入 即 可 创建 解析 器 ， 如 图 11.3 所 示 。 


import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 
import apache log parser 
WMmatplotlib inline 


fformat = 'XV %h %1 Wu Xt V Wri >s Wb V WiRefererjiV V %iUser-Agentii\ %T 


p = apache log parser.make parser (fformat) 





图 11.3 ”创建 解析 器 
A 各 字段 的 含义 可 参考 网 站 | 上 的 说 明 。 


在 log 文 件 中 提取 一 条 日 志 ， 利 用 解析 器 去 解析 ， 如 图 11.4 所 示 。 可 以 看 出 ， 解 析 后 的 数据 为 字典 结构 。 


sample string = 'koldunov.net 85.26.235.202 - - [16/Mar/2013:00:19:43 +0400] "GET /?p-364 HTTP/1.0" 200 65237 "http: //koldunov. net/?p-364^ ^Moz 
data = p(sample string) 


data 


E 


[remote host': '85.26. 235. 202" 


PN 


3 a 
remote logname : : 


3..9 


'remote user': '-', 
'request first line': 'GET /?p-364 HTTP/1l.O', 
'request header referer': 'http://koldunov.net/7?p-364', 


'request header user agent!: 'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.11 (KHTML, 


'request header user agent browser family: 'Chrome', 


'request header user agent browser version string : 


"request header user agent is mobile': False, 
'request header user agent os family: 'Windows', 


'request header user agent os version string': 


'request http ver': '1.0', 
“request method': 'GET', 
'xequest url': ' /?p-364', 


3.3 


3 3 
request url fragment : i 
'request url hostname': None, 


33 


3 3 
request url netloc : 3 

3 3 
request url password : None, 

'request url path': F, 

'request url port': None, 

'request url query': 'p-364', 

'request url query dict': Pp: ['364']], 

'xequest url query list': [C p, '364')], 

"request url query simple dict': Pp: '364'], 


33 


'request url scheme': `°, 
'rxequest url username': None, 


129.0; 1271 


3 3 





图 11.4 解析 日 志 示 例 


like Gecko) Chrome/23.0.1271.64 Safari/537.11', 


通过 以 下 代码 读 取 log 文 件 ， 逐 行进 行 读 取 并 解析 为 字典 ， 然 后 将 字典 传 入 列表 中 ， 以 此 构造 DataFrame， 如 图 11.5 所 示 。 这 里 提取 感 兴趣 的 几 个 字段 ，status 为 状态 码 ，response_bytes clf 为 返回 的 
字 节 数 (流量 ) ，remote_host 为 远 端 主机 IP 地 址 ，request first line AKAA, time received 为 时 间 数 据 。 


og list = 














for line in datas: 


data = p(line) 
data['time received'] = data['time received'][1:12]-*' '-«data['time 


received' 








log.head() 


status 
200 
200 
200 
200 
200 


][13:21]+' '«data['time received'][22:27] 
log list.append (data) 





log = pd.DataFrame (log list) 
log = log[['status','response bytes cli 
line','time received']] 





response bytes cIf 
26126 

10532 

1853 

37153 

3978 


11.1.2 HEURA 


f', 'remote_host', 'request 1 


remote_host 
109.165.31.156 
109.165.31.156 
109.165.31.156 
109.165.31.156 
109.165.31.156 


datas = open (CIH:Npython 数 据 分 析 \ 数 据 \apache access log').readlines () 
] [] 


# 时 间 数 据 整 理 





First | 


# 传 入 列表 





# 构 造 DataFrame 


# 提 取 感 兴趣 的 字段 


request first_line 


GET /index php?optionzcom content&task-section... 


GET /templates/ja procyon/css/template css.css... 


GET /templates/ja procyon/switcher js HTTP/1.0 


GET /includes/js/overlib mini.js HTTP/1.0 


GET /modules/a transmenu/transmenuh.css HTTP/1.0 


图 11.5 


首先 查看 各 字段 是 否 有 缺失 值 ， 如 图 11.6 所 示 。 可 以 看 出 ， 各 字段 中 没有 缺失 值 。 





日 志 解 析 数 据 


time received 
16/Mar/2013 08:00:25 «0400 
16/Mar/2013 08:00:25 «0400 
16/Mar/2013 08:00:25 «0400 
16/Mar/2013 08:00:25 +0400 
16/Mar/2013 08:00:25 +0400 


log.isnull().sum() 


status 

response bytes clf 
remote host 
request first line 
time received 
dtype: int64d 





图 11.6 ”查看 缺失 值 


然后 把 time_received 字 段 转换 为 时 间 数 据 类 型 ， 并 设置 为 索引 ， 如 图 11.7 所 示 。 


log[ time received ] = pd. to datetime(log[ time received ]) 
log = log.set index( time received ) 
log.head() 


status response bytes clf remote host request first line 


time received 


2013-03-16 04:00:25 109.165.31.156 GET /index php?optionzcom, content&task-section... 


2013-05-16 04:00:25 109.165.31.156 GET /templates/ja procyon/css/template css css... 
2013-03-16 04:00:25 109.165.31.156 GET /templates/ja procyon/switcher js HTTP/1.0 
2013-05-16 04:00:25 109.165.31.156 GET /includes/js/overlib mini. js HTTP/1.0 





2013-03-16 04:00:25 109.165.31.156 GET /modules/ja transmenu/transmenuh.css HTTP/1.0 


图 11.7 转换 为 datetime 类 数据 


接着 查看 各 字段 数据 类 型 ， 将 status 字 段 转换 为 int 类 型 ， 如 图 11.8 所 示 。 


log.dtypes 


status 

response bytes clf 
remote host 
request first line 
dtvpe: object 


log[ status ] = logl status’ ]. astype ( int | 





图 11.8 转换 类 型 


此 时 在 对 response bytes _clf 字 段 进行 转换 的 过 程 中 报错 ， 查 找 原因 发 现 其 中 含有 “-” 字 符 数据 ， 如 图 11.9 所 示 。 
log[log[ response bytes clf'] == '-'].head() 


status response bytes clf remote host request first line 
time received 
2013-03-16 04:19:41 178.154 206.250 GET /images/stories/researchers/laplace.jog HT... 
2013-03-16 04:33:14 178.154 206.250 GET /images/stories/researchers/treshnikov.jpg... 
2013-03-16 04:42:45 178.154 206.250 GET /mypict/moc2.png HTTP/1.0 
2013-03-16 04:47:04 176.8.891.244 POST /podcast/wp-comments-post.php HTTP/1.0 


2013-03-16 05:14:31 178.154 206.250 GET /mypict/liza2 4 converted.jpg HTTP/1.0 





图 11.9 “字符 数据 


这 里 定义 转换 函数 ， 当 为 “-” 字 符 时 ， 将 其 替换 为 空 值 ， 并 将 字 节 数据 转换 为 M 数 据 ， 如 图 11.10 所 示 。 


def dash2naníx): 
if x--'-: 
x = np.nan 
else: 
x = float(x)/1048576 


return x 


log[ response bytes clf'] = log[ response bytes clf'].map(dash2nan) 
log.head/) 


status response bytes clf remote host request first line 


time received 


2013-03-16 04:00:25 2.376146e-08 109.165.31.156 GET /index php?option-com content&task-section... 


2013-03-16 04:00:25 90578798e-09 1098.165.31.156 GET /templates/ja procyon/css/template css css. . 
2013-03-16 04:00:25 1.685294e-09 109.165.31.156 GET /templates/ja procyon/switcher js HTTP/1.0 
2013-05-16 04:00:25 3.379046e-08 109.165.31.156 GET /includes/js/overlib mini. js HTTP/1.0 
2013-03-16 04:00:25 3617970e-09 109.165.31.156 GET /modules/ja transmenu/transmenuh.css HTTP/1.0 





图 11.10 ”转换 数据 


11.2 ”日志 数据 分 析 


本 节 将 利用 时 间 序 列 绘图 技术 和 pandas 可 视 化 技术 ， 来 可 视 化 分 析 网 站 流量 、 网 站 的 状态 码 和 IP 地 址 信息 。 


11.2.1 ”网 站 流量 分 析 


首先 对 流量 字段 进行 可 视 化 ， 如 图 11.11 所 示 。 可 以 看 出 ,流量 起 伏 不 大 ， 但 有 一 个 极 大 峰值 超过 了 20MB。 


log| response bytes clf'].plot() 


fmatplotlib. axes. subplots.ÁÀxesSubplot at Ox8a3b278» 


| Ao 
Q 
oM p 


time received 





图 11.11 流量 分 析 


这 个 流量 峰值 是 怎样 造成 的 ? 是 网 络 攻 击 吗 ? 找到 该 条 数据 发 现 是 用 户 下 载 了 一 个 PDF 文 件 ， 因 此 导致 流量 很 大 ， 如 图 11.12 所 示 。 


log[log[ response bytes clf']520] 


status response bytes clf remote host request first line 


time received 


2013-05-16 05:02:59 200 21.365701  77.50.248.20 GET /books/Bondarenko.pdf HTTP/1.0 





E112 ”查看 流量 峰值 


然后 对 时 间 进 行 重 采 样 (30min) 并 继续 计数 ， 可 以 看 出 每 个 时 间 段 访问 的 次 数 。 如 图 11.13 所 示 ， 在 早上 8 点 的 访问 次 数 最 多 ， 其 余 时 间 处 于 上 下 波动 中 。 


t log = log[ response bytes clf'].resample( 30t/).count() 
t log.plot() 


&matplotlib. axes. subplots. ÀxesSubplot at OxcTeO3c8» 





12:00 15:00 
time received 





图 11.13 ”访问 次 数 分 布 1 


当 继 续 转 换 频 率 到 低频 率 时 ， 上 下 波动 就 不 明显 了 ， 如 图 11.14 所 示 。 


h log = log[ response bytes clf'].resample C H ).count() 
h log.plot() 


&matplotlib. axes. subplots. ÀxesSubplot at Oxbd3aefO? 


09:00 12:00 15:00 
time received 





图 11.14 访问 次 数 分 布 2 


这 里 构造 访问 次 数 和 访问 流量 的 DataFrame， 以 分 析 它 们 之 间 的 关联 ， 如 图 11.15 所 示 。 


d log = pd.DataFrame([ count :log[ response bytes clf'].resample( 10t ) .count () ， 
”sum :log[ response bytes clf'].resample( 10t ). sum (]) 
d log.head() 


time received 


2013-03-16 04:00:00 6.957677 
2013-05-16 04:10:00 0.929472 


2013-03-16 04:20:00 0.771323 
2013-05-16 04:50:00 0.771191 





2013-05-16 04:40:00 0.943575 


图 11.15 ”构造 DataFrame 


通过 以 下 代码 绘制 折线 图 ， 效 果 如 图 11.16 所 示 。 由 图 可 以 看 出 ， 访 问 次 数 与 流量 具有 相关 性 。 











plt.figure (figsize= (10, 6)) # 设 置 图 表 大 小 

axl = plt.subplot (111) # 一 个 subplot 
ax2 = axl.twin # 公 用 zx 轴 
axl.plot(d log['count'],color-'r',label-'count') 


























03-16 05 03-1607 03-1609 03-1611 03-1613 03-1615 03-1617 03-16 19 


图 11.16 ”流量 与 访问 次 数 分 布 图 


对 于 相关 性 大 小 ， 可 以 通过 求 相关 系数 来 计算 ， 如 图 11.17 所 示 。 


d log. corr() 


count sum 


count 1.000000 0.512629 
sum 0.512629 1.000000 





图 11.17 相关 系数 


11.2.2 ”状态 码 分 析 


首先 对 状态 码 进行 分 组 统计 ， 如 图 11.18 所 示 。 


status log = log.groupby( status J)[ remote host  ].count() 
status log 


status 

200 5606 

206 11 

301 

302 6 

304 

400 

403 247 

d401 59 

Mame: remote host, dtype: int64 





图 11.18 ”状态 码 分 组 统计 


然后 对 状态 码 数据 进行 可 视 化 ， 效 果 如 图 11.19 所 示 ， 可 以 看 出 正常 访问 的 状态 是 最 多 的 。 


status log.plotikind- bar’ | 


imatplotlib. axes. subplots. AxesS5Subplot at OxcBB6Sf0s5^ 


200 206 301 302 304 400 403 404 
status 





图 11.19 RAA TIAE 


接着 对 404、403 和 200 状 态 码 进行 时 间 序 列 分 析 ， 通 过 以 下 代码 构造 DataFrame， 如 图 11.20 所 示 。 
























































log 404 = log['status'][log['status'] 404] sample('2H').count () 
log 403 = log['s '][log['status'] == 403].resample('2H').count () 
og 200 log['s s'][log['status'] == 200].resample('2H').count () 
new log = pd.DataFrame(('Not Found':log 404, 'Forbidden':log 403, 
'Succes g 200)) ” # 构 造 DataFrame 

| log 





Forbidden NotFound Success 


time received 


2015-05-16 04:00:00 
2013-05-16 06:00:00 
2015-05-16 08:00:00 
2015-05-16 10:00:00 
2013-05-16 12:00:00 
2013-05-16 14:00:00 
2013-05-16 16:00:00 
2015-05-16 18:00:00 
2015-05-16 20:00:00 





图 11.20 ”构造 DataFrame 
Aig : 图 11.20 中 ，Forbidden 字 段 对 应 的 状态 码 为 404; Not Found 字 段 对 应 的 状态 码 为 403; Success 字 段 对 应 的 状态 码 为 200。 


然后 将 这 些 数据 进行 可 视 化 ， 代 码 和 效果 如 图 11.21 所 示 。 


new log.plot(figsize-(10, 3)) 


&matplotlib. axes. subplots. ÀxesSubplot at OxcaaS8bT70» 


— Forbidden 
— Not Found 
— "jccess 


12:00 
time received 





图 11.21 状态 码 时 间 序 列 


也 可 以 通过 这 些 数据 来 绘制 堆积 柱状 图 ， 如 图 11.22 所 示 。 


new log.plotí(kind- barh’, stacked-True, figsize-(10, 7)) 


&matplotlib. axes. subplots. ÀxesSubplot at DOxcb2f5c0> 


ENH Forbidden 
2013-03-16 20:00:00 mmS Not Found 


ENN Success 
2013-03-16 18:00:00 


2013-03-16 16:00:00 
2013-03-16 14:00:00 


2013-03-16 12:00:00 


v 
2 
D 
- 
q 
t 
B 


2013-03-16 10:00:00 


2013-03-16 08:00:00 


2013-03-16 06:00:00 


2013-03-16 04-00:00 





图 11.22 ”堆积 柱状 图 


11.2.3 “IP 地 址 分 析 


首先 对 remote_host 字 段 进行 计数 ， 筛 选 前 10 位 的 iP 进行 绘图 ， 效 果 如 图 11.23 所 示 。 代 码 如 下 : 





ip count = log['remote host'].value counts () [0:10] 
ip count.plot (kind-'barh') 
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图 11.23 ”IP 前 10 位 


pygeoip 库 可 以 将 IP 地 址 解析 为 地 理 数 据 ， 通 过 PIP 进 行 安装 ， 如 图 11.24 所 示 。 与 此 同时 ， 需 在 该 网 站 上 ( ) 下 载 DAT 文 件 才 可 以 解析 iP 地址， 如 


图 11.25 所 示 。 





NE EER: Anaconda Prompt (data-analysis) 
CF:Anaconda\envs ata—analysis»> C:Wsers\LP>pip install pygeoip 


Collecting pygeoip 

Downloading pygeoip-8.3.2-py2.py3-none-any.whl 
Installing collected packages: pygeoip 
Successfully installed pygeoip-8.3.2 


CF:\Anaconda\envs ata—~analysis> CG:WsersNLP> 





nec 


图 11.24 pygeoip 库 安装 


Downloads 


Download links 


Database Binary / gzip Binary / xz CSV / gzip CSV / zip CSV / xz 


GeoLite Country Download Gzip only Zip only Download Zip only 


GeoLite Country IPv6 Download Gzip only Download Gzip only Gzip only 
GeoLite City Download Zip and xz only Download Download 
GeoLite City IPv6 (Beta) Download Gzip only Download Gzip only Gzip only 
GeoLite ASN Download Gzip only Zip only Download Zip only 


GeoLite ASN IPv6 Download Gzip only Zip only Download Zip only 





The GeoLite Legacy databases may also be downloaded and updated with our GeolP Update program. 


图 11.25 DAT 文 件 下 载 


通过 以 下 代码 可 以 轻松 解析 IP 地 址 ， 如 图 11.26 所 示 。 


import pygeoip 

gi = pygeoip.GeoIP (r° H: VpythonZAd A3 ffr HE NGeoLiteCity. dat’, pygeoip. MEMORY CACHE) 
info = gi.record by addr( 64. 233. 161. 99° ) 

info 


l area code': 650, 

”city : "Mountain View, 
' continent’: 'NÀ', 

' country code': US’, 

' country code3': USA, 

' country name': 'United States’, 

' dma code': 807, 

'latitude': 37.41919999999999, 

' longitude': -122.0574, 

'metro code': 'San Francisco, CÀ', 
"postal code': '94043', 

'region code': CA, 

' time zone': 'America/Los Angeles” } 





图 11.26 ”解析 IP 地 址 


然后 通过 IP 地 址 进行 分 组 统计 ， 结 果 如 图 11.27 所 示 。 代 码 如 下 : 


ips = log.groupby( remote host ) | status ].agg([ count’ ]) 
ips. headí) 


remote host 
100.44.124.8 
108.171.252.242 
109.165.51.156 
109.1/1.109.164 
109.191.82.110 





图 11.27 分 组 统计 


通过 以 下 代码 将 IP 解 析 的 国家 和 经 纬度 写 入 DataFrame 中 ， 如 图 11.28 所 示 。 























ips['country'] = [gi.record by addr(i)['country code3'] for i in ips. 
index] 

ips['latitude'] = [gi.record by addr(i)['latitude'] for i in ips.index] 
ips['longitude'] = [gi.record by addr(i)['longitude'] for i in ips.index] 
ps.head() 


count country latitude longitude 

remote host 
100.44.124.8 A 37.7510 -97.8220 
108.171.252.242 4 34.0115 -117.8535 
109.165.31.156 | RUS 47.2364 39.7139 
109.171.109.164 | IS 550415 82.9346 





图 11.28 IP 地址 数据 


最 后 对 country 字 段 进行 分 组 统计 ， 筛 选 出 前 10 位 的 国家 或 地 区 进行 绘图 ， 如 图 11.29 所 示 。 可 以 看 出 ， 俄 罗斯 的 访问 量 是 最 多 的 ， 由 此 可 以 推断 出 该 网 站 来 源 于 俄罗斯 。 





count try = ips.groupby('country')['count'].sum() 
count try = country.sort values (ascending=False) [0:10] 





RUS USA UKR CHN DEU EU BLR FRA EST TUR 
country 


图 11.29 全球 IP 地 址 分 布 图 





